1 min

Google Cloud heeft de Datastream for BigQuery-tool algemeen beschikbaar gemaakt. Hierdoor kunnen ontwikkelaars data-updates van bronnen in near real-time in BigQuery laten ‘streamen’.

De tool was al sinds september van 2022 in bèta, maar is nu algemeen beschikbaar. Datastream voor BigQuery maakt het mogelijk updates van bronnen in bijna real-time in BigQuery-tabellen te repliceren.

Met deze vorm van data-integratie hoeven ontwikkelaars geen data pipelines meer te bouwen of hun ETL- en ELT-processen zelf te programmeren. Data-integratie in BigQuery gaat hierdoor sneller en efficiënter, zo is de gedachte.

Voordelen

Voordelen die de oplossing met zich meebrengt, zijn volgens Google Cloud real-time inzichten in BigQuery en serverless ELT- en ETL-pipelines die automatisch schalen doordat er geen bronnen moeten worden opgezet of beheerd.

Daarnaast zorgt Datastream for BigQuery ervoor dat bronschema’s kunnen veranderen. Zo biedt het zonder problemen ‘schema drift’ en repliceert automatisch nieuwe kolommen en tabellen in de bron naar de BigQuery-omgeving. De oplossing gebruikt hiervoor zijn nieuwe change data capture (CDC) and Storage Write API’s UPSERT-features.

Minimale aanpassingen

Gebruikers hoeven alleen de brondatabase, het verbindingstype en de bestemming in BigQuery te configureren. Databases die worden ondersteund, zijn onder meer MySQL, PostgreSQL, AlloyDB en Oracle databases.

Lees ook: Wat is nu precies een data warehouse, data lake en lakehouse?