Databricks maakte zijn Delta Lake-project eerder dit jaar open source. Nu brengt het bedrijf het project onder bij de Linux Foundation. Daar moet Delta Lake verder ontwikkeld worden.
Delta Lake is een opslaglaag die het eenvoudiger maakt om data-integriteit te bewaren als nieuwe data in een data lake van een enterprise stroomt. Dit doet het door ACID-transacties naar de data repositories te brengen.
Lake House
Delta Lake sluit aan bij een patroon dat Databricks al zag bij zijn eerdere project Spark. Het bedrijf voorzag Spark in 2013 van SQL en doneerde het vervolgens aan de Apache Foundation.
“In de afgelopen jaren is de manier waarop Spark gebruikt wordt langzaamaan veranderd”, aldus Ghodsi tegenover TechCrunch. Daar zag het bedrijf een patroon uit verschijnen: bedrijven pakken al hun data, stoppen het in data lakes en doen er vervolgens een aantal dingen mee.
Eén van die use cases voor de data is machine learning. Maar bedrijven gebruiken de data in data lakes ook voor doeleinden die traditioneel gezien meer met data warehouses geassocieerd zijn. Denk bijvoorbeeld aan business intelligence. Ghodsi noemt dat gebruik ‘Lake House’.
Data Lake en Lake House-patroon
Databricks maakte Delta Lake in april dit jaar open source, en de dienst blijkt bij het Lake House-patroon te passen. Volgens Ghodsi is Data Lake eigenlijk de datalaag van het patroon. Data Lake brengt bijvoorbeeld ondersteuning voor ACID-transacties naar data lakes, evenals schaalbare omgang met metadata. Alle data wordt in het Apache Parquet-format opgeslagen.
Maar Data Lake krijgt nu dus een nieuw thuis bij de Linux Foundation. Een opvallende keuze, omdat Databricks eerder met de Apache Foundation werkte.
Toch is er wel een duidelijke reden voor de keuze, vertelt Ghodsi. “De Linux Foundation draait de grootste projecten ter werelds waaronder het Linux-project en diverse cloud-projecten. De cloud-native projecten zitten allemaal bij de Linux Foundation.”
Neutrale thuisbasis
Door Data Lake naar de “neutrale thuisbasis” van Linux Foundation te brengen, ontstaan er bovendien nieuwe kansen, stelt Michael Dolan, VP of Strategic Programs bij de Linux Foundation.
Daardoor kan de open source-gemeenschap die afhankelijk is van het project namelijk technologie ontwikkelen die kijkt naar hoe big data in de cloud en on premise opgeslagen en verwerkt wordt.