2min

Tags in dit artikel

Databricks heeft een nieuw Ingest-platform aangekondigd, waarmee het data management voor business intelligence (BI) en machine learning-toepassingen wil vereenvoudigen.

De leverancier van data science-software omschrijft zijn aanpak als een data lakehouse, waarmee het verwijst naar het verenigen van data lakes en data warehouses. Op die manier moeten meer gebruikstoepassingen te ondersteunen zijn. Oorspronkelijk zijn data warehouses en data lakes belangrijke producten voor het opslaan van verschillende soorten gegevens, om ze klaar te maken voor analytics. Met Ingest wil Databricks ieder type data dus op één plek samenbrengen, de data lakehouse.

Volgens de data science-speler is de gebruikelijke gang van zaken niet ideaal. Organisaties splitsen gegevens namelijk op in traditionele, gestructureerde data en big data. Vervolgens worden de datasets los van elkaar gebruikt voor BI- en machine learning-toepassingen. Hierdoor raken data lakes en data warehouses gescheiden, met een traag verwerkingsproces of gefragmenteerde resultaten tot gevolg. Daarnaast leidt de traditionele aanpak tot data-silo’s.

Partnernetwerk

Met Ingest kunnen data teams gegevens inladen van een variëteit aan veelgebruikte bedrijfstoepassingen. Databricks heeft hiervoor een partnernetwerk opgebouwd. Bijvoorbeeld data uit applicaties als Salesforce en SAP, databases als Oracle en MongoDB en storage-diensten als Amazon S3 en Google Cloud Storage kan gecombineerde worden in één data lakehouse. Databricks spreekt ook de intentie uit om de integraties verder uit te breiden, bijvoorbeeld integraties met Informatica en Talend staan op de planning.

Gebruikers kunnen ook auto-laadmogelijkheden instellen, zodat gegevens voortdurend het data lakehouse binnenstromen zonder daar zelf onderhoud voor te hoeven uitvoeren. Ingest slaat gegevens uit de verschillende bronnen automatisch op.

Daarnaast wil Databricks Ingest goed laten samenwerken met Delta Lake, het framework van het bedrijf dat als storage-laag draait bovenop data lakes draait en nu dus bovenop data lakehouses.

Tip: Databricks vindt open source de broodnodige innovatie voor data science