Databricks heeft de afgelopen jaren het lakehouse ontwikkeld. Nu deze architectuur er staat, heeft het bedrijf het meer over het Data Intelligence Platform. Wat maakt de nieuwste benadering van Databricks geschikt voor bedrijven?
Als we puur kijken naar de keuze van de term data intelligence en wat het inhoudt, zien we dat Databricks hiermee zijn visie blijft volgen. Echter beschikt Databricks nu over meer technologie dan vijf jaar geleden, toen het lakehouse-concept zijn intrede deed. Bovendien is het sindsdien mogelijk om meer met data te doen, door ontwikkeling in generatieve AI en de algemene vooruitgang rond AI en BI. Databricks voorziet een toekomst waar de toegang tot data veel eenvoudiger is voor iedere werknemer en waarin AI-applicaties alom vertegenwoordigd zijn. Daar hoort een Data Intelligence Platform bij.
Een dataplatform volgens Databricks
Een Data Intelligence Platform is in de basis een platform dat geschikt is voor het beheren van gegevens door data engineers en -scientists. Het fundament is het lakehouse, dat wordt gebruikt voor het beheer. Vervolgens past het AI toe om de gegevens in de architectuur te begrijpen en data intelligence te realiseren. Als we een Data Intelligence Platform goed willen uitleggen, is het dus eerst zaak om het lakehouse te begrijpen. Onderstaande afbeelding geeft een grof beeld van de technieken die Databricks voor het lakehouse inzet.
Goed om te weten over de bovenstaande technologieën en frameworks van het lakehouse is dat het veelal opensource-componenten zijn die ongestructureerde en gestructureerde gegevens verenigen op een architectuur. Tot nu toe waren voor die twee typen vaak twee aparte architecturen nodig. Gestructureerde data bestaan het langst en komen bijvoorbeeld uit Excel-bestanden en databases. Bedrijven die lang bestaan zijn gewend om dit type gegevens onder te brengen in datawarehouses.
Ongestructureerde gegevens worden echter steeds populairder. Zulke gegevens kunnen bijvoorbeeld uit video- en audiobestanden komen, maar zijn over het algemeen niet in staat om naar wens te functioneren in een datawarehouse-architectuur. Voor ongestructureerde gegevens werd zodoende een datalake gebouwd, die veel geschikter is om de juiste prestaties te leveren.
Met een warehouse en lake waren er echter twee losse omgevingen ontstaan in enterprise-omgevingen. Deze twee omgevingen zijn niet per se altijd even goed interoperabel. Precies daar speelt het lakehouse op in. De beste zaken van een warehouse en een lake moeten samenkomen door alle data in open formaten op te slaan. De frameworks die Databricks hiervoor gebruikt, zorgen ervoor dat medewerkers alle databronnen kunnen queryen. Alle data workloads, of het nu gaat om het einddoel business intelligence of artificial intelligence, bevinden zich op dezelfde architectuur.
Het aanpakken van uitdagingen
Het concept van een lakehouse viel in de smaak op de markt. Concurrenten van Databricks bieden inmiddels ook een dergelijke architectuur aan. Organisaties hebben de afgelopen jaren ook veelvuldig het lakehouse geïmplementeerd om hun data-infrastructuur te moderniseren. Volgens Databricks lopen bedrijven echter tegen uitdagingen aan bij dataplatformen van concurrenten. Zo zouden ze niet altijd de juiste prestaties leveren, zouden er behoorlijke technische vaardigheden nodig zijn voor het gebruik en beheer en zouden ze niet optimaal geschikt zijn voor large language models.
Daar moet het Data Intelligence Platform verandering in brengen. Het beschikt over lakehouses en AI-modellen. Deze modellen analyseren de data (content en metadata) en hoe de data wordt gebruikt (bijvoorbeeld queries en rapporten). Het platform kan zo de taal van een organisatie begrijpen. De architectuur van Databricks wordt bijvoorbeeld veel gebruikt in de gezondheidszorg en financiële dienstverlening. Instellingen in die sectoren hebben veel vakjargon, waardoor standaardmodellen de communicatie niet helemaal begrijpen. De modellen van Databricks bekijken echter data in workloads om te leren hoe een bedrijf communiceert. Op die manier kunnen gebruikers het Databricks-platform gebruiken met de termen die ze vanuit hun vak gewend zijn.
Het Data Intelligence Platform moet met de extra intelligentie over data ook in staat zijn meer AI-applicaties te ondersteunen. In principe was het voor bedrijven met een lakehouse-architectuur al mogelijk om van iedere databron gebruik te maken. Door de nieuwe AI-modellen kan het Data Intelligence Platform echter nieuwe inzichten uit data leveren, zoals metrics en KPI’s. Traditioneel gaat in het verkrijgen van die inzichten en intelligentie veel programmeerwerk zitten, maar dat werk kan nu deels overgenomen worden door de AI-modellen.
Uiteindelijk wordt de nieuwe platformbenadering van Databricks grotendeels weergegeven in onderstaande afbeelding.
Generatieve AI begrijpt de data
Het verschil met de lakehouse-architectuur komt vooral door het toevoegen van een Data Intelligence Engine. Om deze engine aan het platform toe te voegen, heeft Databricks medio 2023 MosaicML overgenomen. Voor MosaicML is maar liefst 1,3 miljard dollar betaald, omgerekend zo’n 1,2 miljard euro. Een historisch moment voor Databricks om een dergelijk bedrag neer te leggen. Het bedrag is ook opmerkelijk hoog als je bedenkt dat MosaicML bij alle investeringsrondes samen net geen 64 miljoen dollar ophaalde en daarmee op de waardering uitkwam van 222 miljoen dollar. Databricks wilde echter ver gaan voor de technologie, die als een concurrent van OpenAI wordt gezien. Gezien die populariteit en het gewilde karakter van generatieve AI is de historische overname dan ook verklaarbaar.
MosaicML heeft in korte tijd ontwikkelingswerk gestopt in verdere interoperabiliteit met de originele Databricks-technologie. Daar is de Data Intelligence Engine uit voortgekomen, ook wel DatabricksIQ genoemd. Door DatabricksIQ wordt de lakehouse-architectuur ook weer wat sterker, door bijvoorbeeld kolommen automatisch te indexeren en de data-partitionering te versterken voor betere query-prestaties.
Ook is het platform nu in staat automatisch omschrijvingen en tags toe te voegen aan alle data-assets in de governance-omgeving Unity Catalog. Deze omschrijvingen en tags worden gebruikt om begrip te creëren van jargon en acroniemen. Hierdoor is een betere semantische zoekfunctie mogelijk en verbetert de kwaliteit van AI-assistenten.
Al met al heeft Databricks met het Data Intelligence Platform zijn architectuur verder verbeterd om iedere toepassing van data mogelijk te maken. Dit kan moderne business intelligence reporting zijn, maar ook een moderne softwareapplicatie waarin veel AI is verwerkt. Door het toevoegen van extra intelligentie is het lakehouse uitgegroeid tot een platform waar iedere data-workload tot zijn recht komt.
Tip: Databricks lakehouse krijgt versimpelde real-time machine learning