2min

Databricks, het bedrijf achter Apache Spark, heeft als doel om gegevens, engineering en mensen te verenigen. Dit wil het doen door standaarden te definiëren voor diverse processen, waaronder distributed machine learning-trainingen, -uitvoeringen en -deployment. Dat blijkt uit een interview van ZDNet met CEO Matei Zaharia. 

Veel van dit werk wil Databricks doen met zijn eigen creatie genaamd MLFlow. Dat is een toolkit die moet helpen bij het standaard maken van het proces voor het ontwikkelen van machine learning-applicaties en om ze naar productie te verplaatsen. Alles begint volgens Zaharia echter met data engineering.

“In ongeveer 80 procent van de usecases is het uiteindelijke doel van mensen om data science of machine learning in te zetten. Maar om dit te doen heb je een pijplijn nodig die op betrouwbare wijze data kan verzamelen over een langere periode aan tijd. Beide zijn belangrijk, maar je hebt data engineering nodig om de rest te doen. Wij richten ons op gebruikers met grote hoeveelheden, wat uitdagender is. Als je Spark gebruikt voor distributed processing, dan heb je veel data.”

Dit betekent vaak echter ook dat de data uit diverse bronnen komt. Nu ondersteunen Spark en Data – het cloud-platform van Databricks dat op Spark gebouwd is – al het lezen van en het schrijven naar een groot aantal databronnen. Maar Databricks wil nu nog een stap verder gaan, door verschillende frameworks voor machine learning te verenigen vanuit het lab naar productie via MLFlow.

Ook bouwt het een standaard framework voor data en uitvoering via Project Hydrogen. Dit betekent dat de data en de uitvoering verenigd worden, verschillende ML-frameworks data kunnen uitwisselen en de training en het interference-proces gestandaardiseerd worden.

MLFlow

Het doel van MLFlow is om ondersteuning te bieden bij het volgen van experimenten, het delen en hergebruiken van projecten en het ontwikkelen van productiemodellen. Niet alleen wordt het mogelijk om ML-modellen te deployen op Spark en Delta, maar MLFlow kan deze ook exporteren als REST-diensten die op ieder platform, of op Kubernetes gedraaid kunnen worden. Ook cloud-omgevingen worden ondersteund. Het gaat nu om AWS SageMaker en Azure ML.