Dataiku is de data science-unicorn die samenwerking vereenvoudigt

De kans bestaat dat je nog nooit van Dataiku gehoord hebt. Het bedrijf dat zich op samenwerking rond data science-projecten richt is namelijk in 2013 opgericht, waarna het in de daarop volgende jaren flinke groeide. Dit vooral doordat het platform Data Science Studio (DSS) naast bestaande data science-initiatieven en -tools kan bestaan. Allerlei medewerkers – van data-analisten en data scientists tot engineers en business analisten – kunnen met DSS samenwerken aan analytics- en kunstmatige intelligentie (AI)-projecten. Een stukje versimpeling die meer dan welkom is, zal mening professional beamen.

De focus van Dataiku is uiteraard breed. Voor de echte data scientist komt DSS met mogelijkheden voor het uitvoeren van professionele taken, terwijl minder getrainde analisten en andere medewerkers ook geschikte mogelijkheden op het platform vinden. Door de explosieve groei aan data raken namelijk steeds meer medewerkers bij een analytics of AI-project betrokken. De dataexplosie veroorzaakt daarnaast een variëteit aan zaken en onderdelen waar rekening mee gehouden moet worden: verschillende programmeertalen, data pipelines bouwen, model governance, het operationeel maken van initiatieven en zo kunnen we nog wel ven doorgaan. Alles wat aan analytics en AI verwant is, nam de afgelopen jaren in omvang toe. Daarbij komt ook kijken dat de gemiddelde organisatie inzet op het uitbreiden van zijn AI-initiatieven.

Genoeg reden om in het data science-doolhof een uniformere manier van werken te realiseren, iets wat collaboration-software zou kunnen bewerkstelligen. In meerdere IT-discipline heeft een dergelijke aanpak zich namelijk al bewezen. Zo vond Atlassian verschillende collaboration-tools uit om het werk van softwareontwikkelaars aanzienlijk te vereenvoudigen. Met DSS heeft Dataiku een vergelijkbaar trucje gevonden voor de data science-wereld.

Vier pilaren vormen basis voor DSS

Het platform ondersteunt zo’n beetje alles wat met data science te maken heeft. Hadoop, NoSQL, Tensorflow: aan heel veel zaken is gedacht. Dat uitgebreide karakter maakt DSS echter niet onbegrijpbaar. Het platform kent vier pilaren waar het vooral op rust. Eén daarvan is de ‘Automated Machine Learning’-engine, om het bouwen van machine learning-modellen te faciliteren en versnellen. In theorie kan  de enigine met behulp van de visuele interface een model vrij snel kunnen maken. Een gebruiker kan bijvoorbeeld de taak van het model met één klik bepalen en datasets worden automatisch geanalyseerd om te bepalen wat het beste algoritme kan zijn. Uiteindelijk bepaalt de precieze toepassing van het model hoe snel het gebouwd kan worden, want soms zijn er geavanceerdere componenten nodig die mogelijk met R moeten worden geschreven.

Een ander pilaar van DSS heet ‘Collaborative AI’ en laat het echte collaboration-karakter van het platform zien. De meeste DSS-onderdelen die de pure collaboration-focus hebben, vallen hieronder. Hierbij kan je denken aan data scientists die veel voorkomende model-componenten schrijven, zodat ze door niet-codeerders kunnen worden hergebruikt. Voor data scientists zelf zijn er ook tal van nuttige Collaborative AI-componenten. Hierbij kan je denken aan een tijdlijn die updates geeft over de afgelopen activiteiten, maar ook het automatiseren van repetitieve Python-taken.

Binnen DSS vinden we tevens de pilaar ‘Model Delpoyment’, die zich meer richt op het beheer en de governance van data en modellen. Hiervoor geeft DSS beheerders verschillende opties. Op het platform kunnen zij namelijk regels opstellen die bepalen welke data voor modellering mag worden gebruikt. Ook is het voor hen mogelijk om te zien welke gegevens waar worden gebruikt, zodat alles volgens de richtlijnen verloopt. Dit om te voldoen aan de bedrijfsvoorschriften en de General Data Protection Regulation (GDPR).

Zowel focus op mkb als enterprises

Als laatste is er nog de pilaar die Dataiku ‘Enterprise Scaling’ noemt. In principe wil Dataiku een platform bieden dat iedere organisatie kan gebruiken, ongeacht de omvang. Zo kan het al een aardig lijstje aandragen met grote namen die het platform al gebruiken. Mercedes-Benz, de Rabobank, Palo Alto Networks, Ubisoft en Unilever zijn voorbeelden van grote organisaties die DSS al gebruiken. Aanvankelijk was de focus van Dataiku namelijk de bovenkant van de markt, wat nog zichtbaar is in het klantenbestand.

Volgens Dataiku bevat het platform echter genoeg functionaliteiten om mkb’ers te ondersteunen. Meer dan eens hebben organisaties met een paar honderd medewerkers het platform binnen een aantal maanden in gebruik genomen, waarna ze na verloop van tijd groeiden. Daar hoort wat technische uitbreiding bij. Dataiku ondersteunt dergelijke uitbreiding door bijvoorbeeld het toevoegen van nieuwe nodes relatief simpel te maken.

Daarnaast heeft Dataiku twee versies van zijn platform gelanceerd die juist voor startups, het middensegment en middelgrote bedrijven zijn bedoeld. Dataiku erkent dat het vooral de grote enterprise organisaties zijn die data science waardevol inzetten. De gratis versie biedt daarom een aantal basisfunctionaliteiten van DSS, terwijl de ‘lite’-uitvoering een geschikt startpunt voor bedrijven van kleinere omvang moeten zijn.

Goede basis om verder te groeien

Met de vier kerncomponenten van het Dataiku-platform staat er een solide basis om analytics en AI-initiatieven een stukje te vereenvoudigen. Het kan een aanvulling zijn op de data science-tools die bedrijven al in gebruik hebben. Zo kan bijvoorbeeld SAS als databron voor DSS worden gebruikt, maar ook het integreren van de AWS SageMaker-engine wordt door het platform ondersteund.

Uiteindelijk biedt DSS veel mogelijkheden die voldoende beloven voor een verdere groei van Dataiku. Het is duidelijk dat het platform een probleem oplost waar veel bedrijven tegenaan lopen, maar dat Dataiku nog niet zijn volle marktpotentie bereikt heeft. Het bedrijf zou het klantenbestand nog verder kunnen uitbreiden. We zijn dan ook benieuwd hoe het product en de business zich verder gaat ontwikkelen.