Databricks lanceert nieuwe tools voor machine learning

Het Amerikaanse big data-bedrijf Databricks introduceert een aantal tools voor het bouwen van machine learning-modellen. De Automated Machine Learning (AutoML)-tools moeten zogeheten “citizen data scientists” de mogelijkheid geven eigen machine learning-modellen te bouwen. 

De tools worden onderdeel van het Unified Analytics-platform van Databricks. Ze zijn bedoeld om niet- of minder getrainde gebruikers de mogelijkheid te geven het complexe machine learning-proces te doorlopen. Zo kunnen niet-experts dus ook machine learning gebruiken om voorspellingen te doen over ‘de echte wereld’ vanuit een machine learning-algoritme.

Machine learning voor ongetrainde gebruikers

Het creëren van machine learning-modellen vraagt normaal gesproken een hoog niveau van kennis en vaardigheden. Databricks stelt dat het cruciale onderdelen van het proces kan automatiseren met AutoML. Stappen als hyperparameter tuning, feature engineering, automatic model tracking, reproduceerbaarheid en het uitrollen zijn hier voorbeelden van. “Met de introductie van de ‘low-code’- en ‘no-code’-concepten  zorgt AutoML voor een fundamentele verschuiving in de manier waarop organisaties machine learning gebruiken en data science benaderen”, zegt Adam Conway, vice president productmanagement bij Databricks. “Met de juiste automatisering kan AutoML de time-to-value voor data science teams drastisch verkorten.”

“Er zijn gewoon niet genoeg deskundige, ervaren en getrainde data scientists in de wereld om al het werk handmatig te doen met de snelheid en op de schaal die nodig zijn voor moderne machine learning”, vertelt James Kobielus, analist bij Wikibon aan SiliconAngle. “Deze AutoML-aankondigingen richten zich op een gat in de markt voor uitgebreide programmeertools om de volgende generatie citizen data scientists te helpen om meer van de ontwikkeling, training en tuning van ML-modellen te automatiseren.”

Nieuwe functies onderdeel van MLflow

De nieuwe functies gaan deel uitmaken van MLflow van Databricks. MLflow is een open-source platform dat sinds vorig jaar beschikbaar is. Het platform wordt gebruikt om machine learning-code te verpakken, te testen en uit te rollen bij meerdere clouddiensten.

MLflow maakt gebruik van Apache Spark, het belangrijkste onderdeel van het Unified Analytics Platform van Databricks. Dit platform wordt gebruikt om data te analyseren, data pipelines te creëren en gelabelde datasets op te bouwen voor het maken van machine learning-modellen.