Wat de fusie van Cloudera en Hortonworks betekent voor de data analist en de business

Een aantal maanden geleden werd bekend dat big data-bedrijven Cloudera en Hortonworks gaan fuseren. Nu deze overname is goedgekeurd en alle lampen op groen staan was het tijd voor een interview met Wim Stoop, senior product marketing manager bij Cloudera, die ons alles kan vertellen over de visie rond deze fusie en de voordelen voor bedrijven die met de producten van de twee bedrijven werken en natuurlijk de data analisten.

Stoop vertelt dat deze fusie min of meer het perfecte huwelijk is. Beide bedrijven houden zich bezig met big data op basis van Hadoop en hebben zich de afgelopen jaren hierin gespecialiseerd. Zo is Hortonworks erg goed in Hadoop Data Flow (HDF), werken met streaming data die snel in het Hadoop platform moeten worden toegevoegd. Ook het deployen in de cloud of on premise is iets waar Hortonworks erg goed in is.

Cloudera Data Science Workbench

Cloudera heeft met zijn data science workbench een goede oplossing in handen voor data analisten. Zij kunnen met deze workbench snel en eenvoudig data combineren en analyseren, zonder dat je daarvoor direct extreem veel rekenkracht nodig hebt. Met de workbench kan men experimenteren en testen om te zien wat voor uitkomsten dit biedt, voordat je het meteen op grote schaal toepast. Het belangrijkste voordeel is dat de workbench overweg kan met enorm veel programmeertalen, waardoor de data analist in zijn eigen favoriete taal kan werken. De workbench houdt tevens exact bij welke stappen zijn doorlopen om tot een resultaat te komen. De uitkomst is weliswaar belangrijk, maar het algoritme en methoden die leiden tot het eindresultaat zijn minstens zo belangrijk.

De route naar één oplossing

Als we breder gaan kijken dan zijn er natuurlijk veel meer kleinere zaken waar juist Hortonworks of Cloudera heel goed in is. Of welke technologie net even beter of efficiënter is dan de ander. Dat gaat de twee bedrijven dwingen tot harde keuzes, maar volgens Stoop gaat dat allemaal wel goed komen. De behoefte aan een goed dataplatform is enorm groot. Dat er dan keuzes gemaakt moeten worden is onvermijdelijk.

Uiteindelijk speelt het bedrijf hiermee in op de kritiek die er over Hadoop is. Hadoop zelf vormt de basis van de database, maar daarboven kan je zoveel verschillende modules plakken die data kunnen in- of uitlezen of data kunnen verwerken. Daardoor is het overzicht een beetje verloren gegaan. Het feit dat er zoveel oplossingen zijn heeft te maken met het open source karakter en de steun van bedrijven als Cloudera en Hortonworks, die bij veel projecten de grootste bijdrager zijn.

Dat gaat hiermee ook veranderen. Er komt dit jaar nog een nieuw platform met de naam Cloudera Data Platform. In dit platform zullen de beste onderdelen van Hortonworks en Cloudera worden samengevoegd. Het betekent ook dat conflicterende projecten of modules goed nieuws betekenen voor de een maar slecht nieuws voor de ander. Voor het verwerken van metadata gebruiken beide bedrijven nu een andere oplossing, in het Cloudera Data Platform zullen we er maar één terug zien. Dat betekent dat het aantal modules een stukje minder wordt en er meer overzicht komt, wat we alleen maar kunnen toejuichen.

Cloudera Data Platform

Iets wat we nog niet hadden aangesneden is de nieuwe naam van het bedrijf. De bedrijven hebben gekozen voor een fusie, maar uiteindelijk zal de naam Hortonworks gewoon verdwijnen. Het bedrijf gaat verder als Cloudera, vandaar ook de naam Cloudera Data Platform.

De bedoeling is dat het Cloudera Data Platform dit jaar nog beschikbaar komt, zodat klanten ermee kunnen gaan testen. Zodra het platform stabiel en volwassen genoeg is, krijgen klanten het advies te gaan migreren naar dit nieuwe platform.

Alle bestaande Cloudera en Hortonworks producten zullen uiteindelijk gaan verdwijnen, maar tot eind 2022 blijven de bedrijven deze producten wel volledig ondersteunen. Daarna moet iedereen echter over op het Cloudera Data Platform.

Cloudera heeft in de meest recente versies van zijn huidige producten al rekening gehouden met een migratietraject. Bij Hortonworks zal dit nu ook gaan gebeuren. Het bedrijf gaat stappen zetten zodat bestaande producten en het nieuwe Data Platform in staat zijn om samen te werken bij de migratie naar het nieuwe platform.

Shared Data Experience

Een andere innovatie die volgens Stoop in de toekomst steeds belangrijker wordt is de shared data experience. Als klanten gebruikmaken van Cloudera producten dan kunnen deze Hadoop-omgevingen eenvoudig aan elkaar geknoopt worden, zodat ook de resources (CPU, GPU, geheugen) gecombineerd kunnen worden bij het analyseren van data. Stel dat een bedrijf Cloudera-omgevingen voor data-analyses heeft in eigen datacenters én cloudplatformen, maar dat het daarna ineens een heel groot project moet analyseren. In dat geval zou het al die omgevingen kunnen combineren en gezamenlijk kunnen inzetten. Daarnaast is het mogelijk om bijvoorbeeld data van lokale kantoren/filialen te combineren.

Door fusie meer innovatie mogelijk

Een gigantisch voordeel van deze fusie is volgens Stoop de ontwikkelcapaciteit die beschikbaar komt om nieuwe innovatieve oplossingen te ontwikkelen. De bedrijven waren nu vaak afzonderlijk van elkaar aan dezelfde soort projecten aan het werken. Om bij het voorbeeld van metadata te blijven, beide bedrijven droegen bij aan een verschillend project dat om kan gaan met metadata in Hadoop. Uiteindelijk was een van de twee het wiel opnieuw aan het uitvinden. Gezien de huidige arbeidsmarkt is het vinden van ontwikkelaars die ook nog passie en kennis hebben voor data analyse enorm lastig. Met deze fusie kan er veel efficiënter gewerkt gaan worden en kunnen flink wat teams ingezet worden voor het ontwikkelen van nieuwe innovatieve oplossingen.

Deze week vindt de Hortonworks Datasummit plaats in Barcelona. Daar zal Techzine bij aanwezig zijn en daar zal ongetwijfeld meer bekend worden gemaakt over de fusie, de producten en de status van het nieuwe Cloudera Data Platform.