Databricks heeft tijdens zijn Data + AI Summit aangekondigd het Lakehouse Platform uit te breiden.

Databricks positioneert het lakehouse steeds agressiever. Waar het bedrijf zich drie tot vier jaar geleden nog omschreef als unified analytics-leverancier, gaat het nu hoofdzakelijk nog over het lakehouse-paradigma. Unified analytics is nog wel het doel, want lakehouses volgen het idee de inzet van een geïntegreerde tool, maar het woord valt een stuk minder vandaag de dag. In plaats daarvan zet Databricks vol in op het samenbrengen van de beste aspecten van data warehouses en data lakes op een architectuur, genaamd het lakehouse.

Tijdens de Data + AI Summit deelde Databricks dan ook een aantal benchmarks met ons, waarin het lakehouse scoort op basis van prijs en prestaties. Dat is op zich een goed gegeven, maar er zijn ook tests waarbij concurrenten beter uit de verf komen. Wij keken daarom naar wat er nieuw is en hoe het platform zich verder ontwikkelt.

Tip: Databricks durft groot te dromen met lakehouses

Lakehouse op maat voor sectoren

Als er iets is wat in de ontwikkeling van het platform de afgelopen maanden opvalt, is dat lakehouses steeds vaker op maat gemaakt op de markt komen. Op maat gemaakt wil in dit geval zeggen dat het gebouwd is voor specifieke sectoren. Voor de sectoren stelt het Solution Accelerators beschikbaar, een term voor gerichte notebooks en best practices. Ze richten zich op veelvoorkomende gebruikstoepassingen, om te besparen op discovery-, design-, testing- en ontwikkeltijd.

Dit jaar heeft Databricks lakehouses uitgebracht voor retail, de financiële dienstverlening, de gezondheidszorg en mediabedrijven. Zij krijgen bijvoorbeeld datasets en libraries voor het toepassen van data management, artificial intelligence en analytics in hun sector. Denk bijvoorbeeld aan fraudedetectie of het classificeren van medische beelden.

Uitbreiding van governance-capaciteiten

Ali Ghodsi, de CEO en een van de oprichters van Databricks, laat ons voorafgaand aan de Data + AI Summit ook weten dat alles wat tijdens het event als innovatie gepresenteerd wordt, het doel heeft om governance, warehousing, engineering en data science verder te helpen. Op data governance-gebied valt op dat Databricks met geavanceerde mogelijkheden voor Unity Catalog komt. Deze oplossing werd vorig jaar tijdens de Data + AI Summit aangekondigd, ging in de tussentijd in preview en zal de komende weken algemeen beschikbaar worden op AWS en Azure.

Unity catalog brengt “fijnmazige governance en security naar lakehouse data door gebruik te maken van een bekende open interface”. De gecentraliseerde governance-oplossing voor alle data- en AI-assets beschikt over search en discovery, geautomatiseerde lineage voor alle workloads met de performance en schaalbaarheid voor een lakehouse op iedere cloud.

Aan Unity Catalog werd eerder deze maand data lineage toegevoegd. Hiermee breidde Databricks de governance-mogelijkheden voor lakehouses uit. Bedrijven krijgen zo zicht op de volledige data lifecycle. Het biedt ze inzicht in waar data in het lakehouse vandaan komt, wie het maakte, hoe het na verloop van tijd werd aangepast en hoe het gebruikt wordt voor data warehousing en data science-workloads.

Databricks Marketplace en Cleanrooms komen eraan

Een andere significante update voor het Lakehouse Platform is de Databricks Marketplace, die de komende maanden beschikbaar wordt. Hiermee mikt het bedrijf op een open marktplaats voor het distribueren van data- en analytics-assets. Data-providers kunnen op deze marktplaats assets aanbieden, zoals data tables, files, modellen, notebooks en analytics dashboards. Voor organisaties die aan de slag willen met data is dit een eenvoudige manier om snel van start te gaan met analyses en het verkrijgen van inzichten. Databricks noemt als voorbeeld het abonneren op bestaande dashboards, in plaats van het zelf bouwen van dashboards voor reporting.

De Databricks Marketplace maakt het mogelijk voor aanbieders om data te delen zonder deze te hoeven verplaatsen of repliceren vanuit hun cloud storage. Het is mogelijk om data te leveren aan andere clouds, tools en platforms.

Daarnaast is er met Cleanrooms andere functionaliteit onderweg voor het delen van en samenwerken aan data. In het bijzonder is deze feature geschikt voor datadeling tussen bedrijven, in een veilige omgeving zonder data te hoeven repliceren. Databricks noemt als voorbeeld media- en adverteerbedrijven die inzicht willen in de overlap van doelgroepen en het bereik van campagnes.

Met Cleanrooms wil Databricks beperkingen van bestaande producten aanpakken. Volgens Databricks kennen alternatieve producten beperkingen, omdat deze alleen SQL-tools gebruiken en het risico lopen op data-duplicatie tussen verschillende platform. Cleanrooms moet organisaties eenvoudig laten samenwerken, met daarbij de flexibiliteit om complexe berekeningen en workloads te draaien met behulp van SQL-, Python-, R- en Scala-tools.

Data scientists mogen MLflow 2.0 verwachten

Zoals eerder aangehaald is data science een van de focusgebieden van de nieuwe features. Professionals die zich hiermee bezighouden, kunnen daarom met MLflow 2.0 aan de slag gaan. Versie 2.0 richt zich in het bijzonder op het tackelen van het moeizame en lange proces van het in productie krijgen van een machine learning pipeline. Hiervoor is het niet alleen nodig om code te schrijven, maar ook infrastructuur op te zetten. Daarom biedt versie 2.0 met MLflow Pipelines de mogelijkheid om de operationele details af te handelen. In plaats van het opzetten van notebook-orkestratie kunnen gebruikers de elementen van de pipeline definiëren in een configuratiebestand. MLflow Pipelines regelt de uitvoering vervolgens automatisch.

Andere functies waar data scientists naar uit mogen kijken zijn Serverless Model Endpoints om direct model-hosting te ondersteunen, alsmede ingebouwde Model Monitoring-dashboards om teams te helpen bij het analyseren van de model-prestaties.

Performance Optimizer voor Data Engineering Pipelines

Tot slot is het noemenswaardig dat Databricks het eerder dit jaar gelanceerde Delta Live Tables uitbreidt. Dit ETL-framework krijgt er een nieuwe prestatieoptemalisatielaag bij. Deze laag moet het ETL-proces sneller uitvoeren en de kosten reduceren. Daarnaast is Enhanced Autoscaling gebouwd voor het schalen van resources, rekening houdend met de verandering van streaming workloads. Verder is er Change Data Capture (CDC) for Slowly Changing Dimensions – Type 2, dat iedere verandering in source data bijhoudt voor compliance- en machine learning-doeleinden.

Laatste updates op een rij

Bovenstaande updates geven wat ons betreft duidelijk aan welke koers Databricks de komende tijd gaat varen. Bovenop bovenstaande updates, komen er ook nog wat andere extra features bij, zo liet Databricks ons weten. Die hebben we hieronder een-op-een overgenomen:

Databricks SQL Serverless is beschikbaar als preview op AWS en biedt directe, veilige en volledig beheerde bewerkingen voor verbeterde prestaties tegen lagere kosten.

Photon, de query engine voor lakehousesystemen, wordt in de komende weken algemeen beschikbaar op Databricks Workspaces, waarmee het bereik van Photon over het platform verder wordt uitgebreid.

Open source connectoren voor Go, Node.js en Python maken het eenvoudiger om vanuit operationele applicaties toegang te krijgen tot het lakehouse.

Databricks SQL CLI stelt ontwikkelaars en analisten nu in staat om query’s direct vanaf hun lokale computer uit te voeren.

Databricks SQL biedt nu de mogelijkheid om query’s uit te voeren op externe databronnen zoals PostgreSQL, MySQL, AWS Redshift en andere, zonder dat het nodig is om eerst de data uit de bronsystemen te halen en te laden (query federation).

Techzine is deze week aanwezig op de Data + AI Summit. Mochten er nog andere belangrijke ontwikkelingen bekend worden gemaakt, dan zullen we daar ook over berichten.