Binnen de IT-wereld zijn verschillende partijen op zoek naar het verbeteren van data warehouses en data lakes. Van progressie zullen toepassingen die afhankelijk zijn van de architecturen, zoals als business intelligence (BI) en data science, immers profiteren. Er zijn de afgelopen jaren dan ook meerdere moderne technologieën in opkomst. Zo heeft Databricks het lakehouse-concept dusdanig doorontwikkeld, dat het hiermee durft te dromen van een revolutie.
Databricks positioneert zich als een speler die unified analytics wil bewerkstelligen. Het ziet namelijk dat bedrijven liever één geïntegreerde tool gebruiken. Meerdere oplossingen in gebruik nemen en aan elkaar koppelen betekent namelijk meer complexiteit, meer systemen die gemanaged moeten worden en lastiger gebruikersbeheer. Door frameworks uit te brengen, brengt Databricks bepaalde analytics-zaken juist samen.
Dat is bij het lakehouse-concept eveneens het geval. De beste aspecten van data warehouses en data lakes worden als het ware samengebracht op één architectuur. Een lakehouse maakt het mogelijk om data warehousing-workloads direct op je data lake te draaien zonder een architectuur te hoeven onderhouden. Databricks neemt dit zoveel mogelijk van je over.
We schreven eerder al over wat een lakehouse precies bereikt. Via onderstaande link kan je de werking nog eens teruglezen. Sindsdien is er echter het nodige gebeurd rondom lakehouses en wordt het idee steeds meer in de praktijk toegepast. We spraken erover met Engineering Director Pieter Senster van Databricks.
Tip: Gaat Databricks met lakehouses de AI- en data-wereld veranderen?
Laag op data lake geeft transactionele- en performance boost
Ten eerste heeft het Delta Lake-framework meer vorm gekregen. Met deze set technologieën, die eigenlijk op je data lake draait, pakt Databricks het probleem van inconsistente data in traditionele data lakes aan. Dit geldt bijvoorbeeld wanneer er één groep medewerkers data updatet, terwijl de andere groep medewerkers data leest. Voor de laatste groep is dan niet alle informatie beschikbaar. Als zij een BI-rapportage proberen te maken, dan lukt dat niet. Het Delta Lake-framework houdt een aantal zaken bij om zulke problematiek te voorkomen: welke bestanden horen op dit moment bij een dataset. Het zorgt ervoor dat gebruikers van de data altijd consistent zicht hebben op de data.
Naast een transactielaag beschikt Delta Lake over een performancelaag. Deze registreert statistieken van datasets, zoals minimum en maximum waardes. Hierdoor kan een query-opdracht veel sneller uitgevoerd worden, aangezien het weet waar gezocht moet worden. Bepaalde bestanden kunnen dan overgeslagen worden. Deze technologie wordt ook al veel gebruikt bij databases en data warehouses en heeft daar al voor prestatiewinst gezorgd. Databricks brengt dit dus als het ware naar data lakes.
Duizenden gebruikers tegelijkertijd
In de afgelopen maanden heeft Databricks ook SQL Analytics toegevoegd aan het lakehouse-concept. Het bedrijf zag namelijk dat er bij lakehouses een concurrency-eis komt kijken. Dat wil zeggen dat er voor analytics- en BI-doeleinden tegelijkertijd dezelfde dataset gebruikt wordt door veel medewerkers. Bij data lake-architecturen speelt zo’n probleem wat minder, omdat daar vaak maar enkele medewerkers een dataset gebruiken. Aangezien lakehouses echter ook data warehousing-eindtoepassing heeft, moet er echter de mogelijkheid zijn om honderden tot duizenden medewerkers tegelijkertijd te ondersteunen.
Met die gedachte is SQL Analytics bedacht. Bij Databricks omschrijft men dit als multi-cluster load balancing, wat wil zeggen dat Databricks ervoor zorgt dat er altijd genoeg compute power en clusters beschikbaar zijn om workloads te draaien. De load balancer zorgt ervoor dat automatisch op- of afgeschaald wordt. In de praktijk is dit bijvoorbeeld nuttig als er aan het eind van een kwartaal veel financiële rapportages gemaakt moeten worden. SQL Analytics zorgt ervoor dat er automatisch clusters bij komen, om daarna ook weer af te schalen. Daardoor wordt precies verbruikt wat nodig is en hoeft er uiteindelijk minder betaald te worden. Via een webinterface kunnen gebruikers ook zelf compute en clusters configureren.
Het SQL Analytics-product wordt naast het beheren van clusters en compute ook gebruikt voor het visualiseren van data. Om dit te ondersteunen, heeft Databricks vorig jaar Redash overgenomen. De Redash-technologie is vervolgens toegevoegd aan de SQL Analytics-interface. De Redash-technologie heeft echter niets met load balancing te maken en is meer bedoeld als dienst om met de SQL-taal queries uit te voeren. Met behulp van een visualisatie worden vervolgens de resultaten getoond. Bijvoorbeeld een grafiek of kaart maakt duidelijk wat de gevonden data inhoudt en zegt.
Welke kant gaan we op?
Nu Databricks het lakehouse stapsgewijs verder uitbouwt, kijkt het ook steeds meer naar het ecosysteem. Met bekende spelers als Tableau, Microsoft Power BI en Qlik zijn samenwerking gerealiseerd. Maar ook met opkomende spelers zijn er integraties, zoals ThoughtSpot. Senster geeft aan dat het uitbreiden van de samenwerkingen een prioriteit is, want dat zal uiteindelijk het succes van het lakehouse bepalen.
Het heeft ertoe geleid dat inmiddels bedrijven enthousiast zijn om samen met Databricks op de lakehouse-trein te stappen. Senster ziet dat bedrijven veel informatie in data lakes hebben zitten die voor data science bedoeld zijn, maar die gegevens zijn ook welkom voor BI-doeleinden. Dan biedt een lakehouse een goede uitkomst. Andersom, dus aan de data warehouse-kant, zie je wel dat bedrijven soms de voorkeur blijven geven aan een data warehouse. Dit omdat ze maximale performance nodig hebben, bijvoorbeeld voor kritieke financiële rapportages die iedere dag gerefresht worden. Volgens Senster zijn vanuit engineering-oogpunt echter geen bezwaren om met het lakehouse dezelfde prestaties te bereiken als data warehouses.
Al met al is Databricks dus een duidelijke weg ingeslagen door data warehousing en data lakes opnieuw te willen uitvinden. Het bedrijf is ervan overtuigd dat het met lakehouses de AI- en data-wereld gaat veranderen. Wij zijn benieuwd in welke mate dat gaat gebeuren, maar de potentie is er in ieder geval.
Tip: Databricks vindt open source de broodnodige innovatie voor data science