Databricks vindt open source de broodnodige innovatie voor data science

Abonneer je gratis op Techzine!

Binnen de data science-wereld is er een aantal jonge bedrijven aan een stevige opmars bezig. Databricks is daar een voorbeeld van. Door open source leidend te maken voor zijn software, heeft het bedrijf in een relatief korte periode voet aan de grond gekregen. We gingen recent op bezoek bij de Spark + AI Summit van het bedrijf, waar we spraken met Principal Software Engineer Michael Armbrust.

Het trucje van Databricks richt zich met name op het ontwikkelen frameworks, om deze vervolgens open source te maken. Doorgaans wordt de software aan de Apache Software Foundation gedoneerd, maar sinds kort is ook de Linux Foundation een bestemming. Zonder meer de bekendste oplossing – die inmiddels onder een foundation valt – is Apache Spark. Veel ontwikkelaars werken al met en aan deze software.

Databricks gebruikt de frameworks ook zelf voor zijn Unified Data Analytics Platform. Dit is bij uitstek een platform voor werknemers gespecialiseerd in machine learning- en datavraagstukken. Denk hierbij aan data scientists, data engineers en data analysts. Met het platform krijgen zij tools in handen om uitdagingen rond hun werkzaamheden aan te pakken. De filosofie van Databricks is om door middel van de tools daadwerkelijk waarde te halen uit data.

Problemen volgens Databricks

Gezien de complexiteit die komt kijken bij het omzetten van data in waardevolle inzichten, kan het achterhalen van waardevolle data nog best lastig zijn. Wie de data science-wereld volgt, weet dat er heel veel oplossingen zijn, die op hun eigen manier allemaal heel goed zijn. Organisaties omarmen platformen voor het beheren van modellen, hebben bijvoorbeeld data lakes in AWS S3 en Azure Blob Storage en zo kunnen we nog wel even doorgaan. Een moderne organisatie kan vandaag de dag wel tientallen tot honderden data science-gerelateerde oplossingen in gebruik hebben. Al die verschillende frameworks en tools leiden echter tot een complexere architectuur.

Bij Databricks constateert men dat de complexere infrastructuur ertoe leidt dat data inmiddels een vraagstuk is waar veel verschillende beroepsgroepen mee bezig zijn. DevOps-teams moeten bijvoorbeeld alle losse componenten configureren. Alles moet werken en het liefst ook nog met elkaar communiceren. De software moet geconfigureerd en geüpdatet worden, zodat het allemaal voldoet aan de moderne standaarden.

Daarnaast betekent een uitgebreide infrastructuur dat het lastig is om datakwaliteit te blijven garanderen. Dit komt volgens Armbrust doordat er meerdere kopieën van inconsistente data zijn, die voortkomen uit onbetrouwbare data pipelines. “Data science is hierdoor vooral een kwestie geworden van het onderhouden van data”, stelt Armbrust. “Met als gevolg dat data scientists veel minder toekomen aan hun werkelijke taken.”

Tot slot worden security-teams ook belast door de complexiteit. Het in gebruik nemen van meer oplossingen, laat de IT-omgeving groeien. Deze grotere IT-infrastructuur en de in omvang groeiende data lakes vergroten het aanvalsoppervlak. Hier moeten security-teams rekening mee houden, want bij een datalek wordt er al snel naar hen gekeken.

Het effect van Apache en Delta Lake

Het platform van Databricks bestaat uit meerderede lagen, om deze problemen te adresseren. Het eerste component dat het hiervoor inzet is Unified Data Service. Met deze laag moet de datakwaliteit gegarandeerd blijven gedurende de hele ‘data journey’. Hiervoor biedt het platform beheermogelijkheden voor data storage, processing en ingesting. De frameworks Spark en Delta Lake moeten dit ondersteunen.

Spark werd oorspronkelijk ontwikkeld tijdens een universitair project, enige tijd later besloot men Databricks op te richten. De potentie die men zag was een flinke performance verbetering in ETL (extract, transform, load), ten opzichte van de standaarden op dat moment. De analytics engine haalt data uit allerlei bronnen, van disk opslag tot EC2. Vervolgens gebruikt Spark verschillende resources, zoals in-memory computing, om datasets snel te verwerken. Ontwikkelaars realiseren de performance verbetering met verschillende features. Ze kunnen bijvoorbeeld een cluster op maat configureren. ETL blijft echter de boodschap die Spark bij uitstek het best omschrijft.

“Data science is vooral een kwestie geworden van het onderhouden van data”

Delta Lake is het andere framework van de Unified Data Service-laag. In vergelijking met Spark is Delta Lake misschien minder bekend, maar dat maakt het component er niet minder belangrijk op. Het framework draait namelijk als storage laag bovenop de data lakes van organisaties. Op die manier kan het data zo opslaan dat veelgebruikte technologieën de gegevens uit kunnen lezen. Het wordt voor organisaties simpeler om waarde te halen uit data, maar ze kunnen ook sneller data aanpassen en verwijderen.

Laag om samenwerking te bevorderen

Het Databricks-platform streeft met een ander component, de zogeheten Data Science Workspace, naar het bevorderen van samenwerking rond data- en machine learning-projecten. Het betreft een dashboard voor het beheren van analytics-projecten.

Op de centrale plek brengt Databricks de kunstmatige intelligentie (AI)-modellen van organisaties in kaart. Zo’n centraal punt is handig voor het delen van de modellen tussen data scientists onderling, zodat ze er samen voor kunnen zorgen dat ze daadwerkelijk in gebruik genomen kunnen worden. Security kan ingebouwd worden, updates moeten makkelijk door te voeren zijn, grote datasets zijn eenvoudig in clouddiensten op te slaan en meer. Databricks wil genoeg extra features bovenop de open source-versie toevoegen, zodat alle wensen die bij model management komen kijken vervuld worden.

Open source volgens Databricks noodzakelijk

Het Unified Analytics Platform bestaat dus voornamelijk uit open source-software, hetgeen waar Databricks echt in gelooft. Dat er wat zorgen zijn over de winstgevendheid van open source, lijkt Databricks niet zoveel te doen. De broncode openstellen voor andere ontwikkelaars brengt de ontwikkeling van de frameworks immers in versnelling. De ontwikkelaars krijgen de vrijheid om te experimenteren met de software, wat er toe leidt dat de gebruikstoepassing kan veranderen ten opzichte van wat Databricks oorspronkelijk voor ogen had. Wellicht dat de functionaliteit op die manier dusdanig evolueert, dat data science een stukje toegankelijker wordt. De innovatie die open source teweeg brengt is iets wat Databricks heel erg aanmoedigt

Daarnaast kent Databricks als oorspronkelijke maker de frameworks heel goed. Hierdoor weet het precies welke premium features het bovenop de software toe kan voegen, zodat de frameworks van extra waarde zijn voor het platform. Bedrijven blijken hier warm voor te lopen, want de adoptie van het platform waar uiteraard wel voor betaald moet worden loopt verder op. Op die manier verdient Databricks goed, wordt innovatie bevorderd en krijgen bedrijven een platform in handen dat data science belooft te vereenvoudigen.

Bedoeld als versimpeling, niet als complete vervanger

Databricks wil dus met name een versimpelslag slaan, waarbij een open source-benadering als cruciaal gezien wordt. Het bedrijf vindt het echter ook belangrijk om naast bestaande oplossingen te kunnen bestaan. Een probleem los je immers niet alleen op. Zo ondersteunt Databricks het gebruik van zijn eigen tools in combinatie met andere oplossingen. Dit door integraties op te zetten met andere analytics en AI-oplossingen. Hier blijft Databricks aan werken. Feit is echter wel dat een combinatie van Databricks met veelgebruikte Business Intelligence-tools nu al geen probleem moet zijn. Voor Tableau, Microsoft Power BI, Google Looker en Qlik zijn connectoren gebouwd, zodat data opgehaald kan worden uit Databricks-clusters. Verder zijn er diepe integraties met tools als Dataiku en AWS SageMaker, terwijl het ook gebruikt kan worden naast veelgebruikte oplossingen als SAS.

Al met al is het best logisch dat een relatief jong bedrijf als Databricks de aandacht trekt van verschillende grote enterprise organisaties. Het bedrijf heeft een innovatieve aanpak gevonden om organisaties te helpen met hun analytics- en AI-projecten. Aangezien het opschalen van dergelijke projecten in volle gang is, kunnen nieuwe oplossingen een versimpelslag slaan waar organisaties op zitten te wachten.

We zijn dan ook benieuwd hoe Databricks zich de komende periode ontwikkelt en blijven het bedrijf nauwlettend in de gaten houden.