Databricks Machine Learning richt zich op beheer ML-lifecycle

Abonneer je gratis op Techzine!

Databricks laat aan Techzine weten met het nieuwe platform Machine Learning te komen. Hiermee wil het datateams alle tools bieden om de volledige ML-lifecycle te beheren.

Databricks Machine Learning is gebouwd op een open lakehouse, wat verwijst naar de architectuur die Databricks heeft gebouwd. Binnen deze architectuur komen data warehouse- en data lake-componenten samen, om het beste van beide kanten te bieden. Data scientists en data engineers kunnen bij het Machine Learning-platform dan ook schakelen tussen verschillende functies, zoals het al bestaande SQL Analytics-component.

Tip: Databricks durft groot te dromen met lakehouses

ML-projecten starten en automatiseren

Met het platform wil Databricks ervoor zorgen dat gebruikers eenvoudig ML-werk kunnen uitvoeren met ieder type data en op elke schaal. Daarom komt het platform met nieuwe AutoML-mogelijkheden. Deze stellen datateams in staat snel modellen te trainen via een UI of API. Daarnaast zijn onderliggende experimenten en notebooks te delen. Op die manier kunnen data scientists gemakkelijk een onbekende dataset valideren of een nieuw ML-project toetsen. Het moet transparantie en inzichten bieden in hoe een model werkt.

Verder geeft het bedrijf aan dat alle AutoML-experimenten geïntegreerd zijn met de rest van het Lakehouse-platform, zodat de gerelateerde parameters, statistieken en modellen die aan elke proefrun zijn gekoppeld kunnen worden bijgehouden. Hierdoor zijn modellen eenvoudig te vergelijken en kunnen ze eenvoudig in productie worden genomen.

ML op schaal

Een tweede functionaliteit die onder het nieuwe platform valt, is de Feature Store. Naar eigen zeggen komt het hiermee met “de eerste feature store die binnen een data- en MLOps-platform is ontworpen”. De store stelt datateams in staat om eenvoudig features voor modellen te hergebruiken, zodat herbewerking en duplicatie van features voorkomen wordt. Volgens Databricks bespaart datateams dit maanden bij het ontwikkelen van nieuwe modellen.

“Features worden opgeslagen in Delta Lake’s open bestandsformaat en kunnen worden benaderd via de native API’s van Delta Lake. Feature Store biedt daarnaast zowel real-time- als batch-toegang tot features voor bijvoorbeeld ML-training en streaming. En dankzij een integratie met MLflow zijn feature-referenties ingebed in het model zelf, zodat gebruikers features kunnen bijwerken zonder dat het applicatieteam wijzigingen hoeft aan te brengen in de applicatiecode”, aldus Databricks.

Het platform Machine Learning is als preview beschikbaar voor alle gebruikers van Databricks. Machine Learning is onthuld tijdens de jaarlijkse conferentie van het bedrijf, waar ook nieuwe Delta Lake-functionaliteit getoond werd.

Tip: Databricks vindt open source de broodnodige innovatie voor data science