Databricks heeft Zerobus Ingest gelanceerd, een serverless dienst die data rechtstreeks naar het lakehouse streamt. De oplossing moet de complexiteit van traditionele message buses zoals Kafka elimineren en kosten drastisch verlagen.
Organisaties die real-time operational intelligence willen opschalen, lopen vaak vast in dure streaming-architecturen. Het beheren van message buses, schema registries en connector frameworks vormt een aanzienlijke ‘complexiteitstax’ die waardevolle engineering-resources wegtrekt van strategische projecten. Databricks wil met Zerobus Ingest, onderdeel van Lakeflow Connect, deze bottleneck wegnemen.
Zerobus Ingest is een volledig beheerde dienst die data direct in governed Delta-tabellen streamt. Door tussenlagen te verwijderen, levert het een vereenvoudigde architectuur met hoge prestaties. Het systeem ondersteunt duizenden gelijktijdige verbindingen en bereikt een doorvoer van meer dan 10GB per seconde in minder dan 5 seconden.
Single-sink architectuur vervangt complexe opzet
Traditionele message buses zoals Kafka zijn ontworpen als multi-sink architecturen: universele hubs die data routeren naar tientallen onafhankelijke consumers. Die flexibiliteit brengt echter hoge kosten met zich mee wanneer het lakehouse de enige bestemming is. Zerobus Ingest kiest voor een fundamenteel andere aanpak met een single-sink architectuur, geoptimaliseerd voor één taak: data rechtstreeks naar het lakehouse pushen.
Deze architectuurkeuze elimineert complexiteit en verlaagt kosten. Geen brokers meer die moeten schalen naarmate datavolumes groeien, geen partities om af te stemmen voor optimale prestaties, geen consumer groups om te monitoren en debuggen. Ook zijn er geen cluster upgrades meer nodig en is gespecialiseerde Kafka-expertise overbodig.
Met Zerobus Ingest volstaat één beheerd Databricks-endpoint. Engineers creëren een tabel in Unity Catalog en beginnen met het schrijven van data via de API of SDK. De serverless architectuur schaalt automatisch op tot gigabytes per seconde aan ingestion zonder configuratiewijzigingen. De traditionele streamingarchitectuur wordt zo vereenvoudigd van vijf beheerde systemen naar twee componenten, aldus Databricks.
Interfaces voor verschillende use cases
Developers kunnen integreren via gRPC en REST APIs of gebruikmaken van taalspecifieke SDK’s. Zerobus Ingest biedt een breed scala aan push-gebaseerde interfaces voor branchespecifieke integraties. De gRPC API is aanbevolen voor high-performance applicaties die de laagste latency en hoogste doorvoer vereisen. De REST API in bèta is gemaakt voor webhooks, serverless functies en talen waar gRPC-ondersteuning beperkt is.
Production-ready libraries voor Python, Java, Rust, Go en TypeScript vereenvoudigen authenticatie en batching-logica via gRPC. Ook is er Open Telemetry-ondersteuning in bèta, waarmee operationele logs, metrics en traces naar het lakehouse kunnen worden gebracht voor langetermijn historische analyse met slechts een configuratiewijziging.
Omdat elke write governed wordt door Unity Catalog, krijgen gebruikers automatische lineage tracking en fijnmazige toegangscontrole vanaf het moment dat data wordt gecreëerd. Zo heeft streaming data unified governance met de rest van het lakehouse.