Databricks komt met nieuwe data lineage-features voor Unity Catalog. Hiermee worden de governance-mogelijkheden voor de lakehouse-architectuur uitgebreid.

Data lineage biedt inzicht in hoe data door een organisatie stroomt. Deze functie is op maat gemaakt voor lakehouses, de Databricks-aanpak die de architecturen van data warehouses en -lakes verenigt. Door de nieuwe feature kunnen gebruikers zien waar data vandaan komt, wie het op welk moment creëerde, hoe het is aangepast en hoe het momenteel gebruikt wordt.

Met de introductie wil Databricks inspelen op de groeiende datavolumes uit verschillende bronnen. Dit maakt het in de optiek van de open source-speler lastig om te overzien waar de data vandaan komt, hoe het beweegt en verandert en wie toegang heeft. Inzicht is echter noodzakelijk om risico’s in te kunnen schatten.

Werking

De functie voor Unity Catalog kenmerkt zich door meer geautomatiseerde run-time lineage, om alle in Databricks gegenereerde lineage vast te leggen. Het biedt meer accuratesse en efficiëntie in vergelijking met het handmatig taggen van data. De informatie wordt vastgelegd voor tabellen, views en kolommen en geeft gedetailleerd zicht op de upstream en downstream datastromen.

Lineage werkt in alle workloads die Databricks ondersteunt, zoals SQL, Python, R en Scala. Alle data-professionals kunnen hun tools versterken met data-intelligentie en betere inzichten. Het betreft ook het vastleggen van lineage voor notebooks, workflows en dashboards.

Daarnaast helpt data lineage organisaties beter te voldoen aan compliance-richtlijnen. Dit door het simpeler te maken om datastromen bij te houden die onder regelgeving vallen, zoals de GDPR. Databricks noemt de traceerbaarheid van data een cruciaal element in een moderne data-architectuur waarmee klanten aan wettelijke vereisten kunnen voldoen.

Data lineage is per direct beschikbaar als preview op AWS en Microsoft Azure.

Tip: Databricks legt met Lakehouses for Financial Services architectuur voor dienstverleners