3min

De opmars van machine learning wordt eigenlijk door nog maar één factor belemmerd, maar wel een hele cruciale: een schrijnend gebrek aan data scientists. Wat als je deze professionals niet langer per se nodig hebt voor het bouwen van een ML-model? Met deze vraag in gedachte ontwikkelde Google Cloud een product dat machine learning voor iedereen toegankelijk maakt: AutoML.

Google’s eigen technologieën

Al eerder bracht Google Cloud kant-en-klare Machine Learning modellen uit voor ontwikkelaars. Deze modellen zijn getraind door Google zelf aan de hand van data uit Google’s eigen zoekmachine, best uniek dus. Maar dit betekent tegelijkertijd dat deze modellen alleen bekend zijn met openbare data. Wanneer je ML wil inzetten op basis van je eigen data, moet je zelf je model gaan trainen. En dat maakt ML een klus voor specialisten. En tja, waar vind je deze? Daarom ontwikkelde Google aanvullend AutoML, dit is een verzameling machine learning-producten waarmee je zelf ML-modellen kunt trainen zonder enige voorkennis van machine learning. Hierdoor heb je geen data scientists meer nodig om ML te integreren in je bedrijfsprocessen.

De grote kracht van AutoML zit hem in de gebruiksvriendelijkheid. Je maakt een standaard ML-model specifiek door het te voeden met je eigen data en daarvoor heb je niet veel meer nodig dan een CSV-bestand. Om deze manier van modelleren mogelijk te maken, maakt AutoML gebruik van geavanceerde technieken zoals Hyper Parameter Tuning en Transfer Learning en Google’s eigen Neural Architecture Search. Overigens blijft je data en de modellen die je daarmee bouwt in jouw bezit – Google gebruikt deze data niet.

Voorbeeld

Stel je voor: je werkt bij een bank en je wil klanten meer inzicht geven in hun betaaldata, dan kun je een model gaan trainen aan de hand van vragen die klanten kunnen stellen, zoals: ‘Hoe veel heb ik uitgegeven aan taxi’s?’

Hiervoor moet je het model gaan trainen; wat zijn taxi-uitgaven? Je moet het systeem aanwijzen welke transacties horen bij taxibedrijven. Je gaat dus al je data categoriseren. Het systeem moet bijvoorbeeld leren dat de termen ‘NS’, ‘metro’, ‘bus’ en ‘intercity’ allemaal horen bij het label openbaar vervoer. Om je model echt goed te trainen, kun je het beste 100 tekstvoorbeelden toevoegen per categorie. Het enige wat je hiervoor nodig hebt is een CSV-bestand.

Als je CSV-bestand klaar is, kun je het gemakkelijk uploaden via Auto ML-interface of via Cloud Storage en daarna kun je direct beginnen met trainen. Dat neemt ongeveer een paar uur in beslag. Klinkt misschien als een lange tijd, maar het tegendeel is waar: zonder AutoML ben je dagenlang bezig met trainen. Computers hebben namelijk nog best veel moeite om (menselijke) taal te begrijpen. Maar met AutoML gaat het gelukkig een stuk sneller, dit komt voornamelijk omdat het Natural Language Processing-model van Google uit zichzelf al zo goed is (door de ervaring met de zoekmachine).

De volgende en laatste stap is het evalueren van je model. In de afbeelding hierboven zie je dat het model precies laat zien hoe nauwkeurig het resultaat is. In dit geval scoren we 87% en dat is best bijzonder, aangezien in dit voorbeeld slechts 25 tekstvoorbeelden zijn ingevoerd in plaats van de aanbevolen 100. Dit hoge percentage is mogelijk doordat AutoML hetzelfde Natural Language Processing-model gebruikt als de zoekmachine van Google – en dus al is getraind door miljoenen Google-gebruikers. Je hoeft eigenlijk alleen nog maar een extra laagje met jouw specifieke data te trainen. Ter vergelijking: als je zonder AutoML aan de slag gaat, moet je voor een minimaal resultaat minstens 1.000 voorbeelden invoeren en dat aantal kan oplopen tot wel 100.000!

Als je model eenmaal klaar is, blijf je het bijsturen en voeden met nieuwe data, zodat je model steeds slimmer wordt. Dit is tenslotte de basis van machine learning als zelflerend systeem. En dat is ook de kracht van Google’s eigen zoekmachine. Dat deze technologie nu voor iedereen beschikbaar is, is misschien wel het meest bijzondere. Wil je AutoML zelf uitproberen? Start hier je eigen model.

Dit is een ingezonden bijdrage van Lee Boonstra, Sales Engineer bij Google Cloud. Via deze link vind je meer informatie over de mogelijkheden van het bedrijf.