Veel organisaties worstelen met het effectief inrichten van hun datalandshap en met waarde halen uit data, zo blijk uit onderzoek. Dit is erg zonde, want het helpt jouw datascientists juist bij het sneller en effectiever bouwen van dataproducten en het vergoten van de digitale slagkracht en wendbaarheid. Benieuwd naar hoe je jouw datalandschap overzichtelijker, betrouwbaarder en vooral effectiever kan maken? Je leest het in deze blog. Een tipje van de sluier: dit gaat veel verder dan het simpelweg implementeren van een datalake.
Een chaos aan data
Het verzamelen van data is geen probleem voor organisaties, maar het op een betrouwbare manier beschikken over actuele en adequate data en daar vervolgens bruikbare informatie uithalen om beslissingen op te baseren wél. Dit komt met name door de gigantische zee aan gegevens die organisaties verzamelen. Denk bijvoorbeeld aan video- en audiobestanden, externe data en ruwe IoT-data. Organisaties hebben bovendien vaak hun praktijken voor data-governance en data-engineering niet op orde en zijn bang om data weg te gooien. Plus: ze beschikken veelal niet over voldoende capaciteit en een geautomatiseerde aanpak via een dataplatform om data voor te bereiden en tot kant-en-klare dataproducten te verwerken. En daardoor stapelt de onverwerkte data zich op.
De negatieve gevolgen van dataworstelingen
Dit soort dataworstelingen kunnen serieuze gevolgen hebben voor organisaties. Zoals het verstoppen van je datalake en het vastlopen van je dataprocessen. Is de data zo gebrekkig van kwaliteit en structuur en zo overdadig qua volume dat het lastig is om voortgang te boeken of überhaupt tot waarde uit de data te komen? Dan spreken we van analysis paralysis. Ook de herkomst en kwaliteit van de data is vaak onduidelijk voor organisaties. Dit terwijl de herkomst, traceerbaarheid en het juiste meetmoment cruciale pijlers zijn voor datagedreven werken. Datascientists en machine learning-specialisten moeten immers te allen tijde kunnen vertrouwen op de juistheid van de dataproducten waarmee ze werken. Maar ook de beschikbaarheid en verversfrequentie van dataproducten – die tot nu toe vooral voor analyses tijdens kantooruren gebruikt worden – moet omhoog. Deze producten worden immers continu voor realtime besluitvorming ingezet. Traditionele datawarehouses en datalakes ondersteunen realtime besluitvorming minder goed omdat ze traditioneel zijn ingericht op batchgewijze verversing. Tot slot kunnen de problemen op het vlak van data-engineering en dataplatforms leiden tot hoge kosten, compliance-risico’s en een gebrek aan slagkracht en flexibiliteit.
Datalake is een start, niet dé oplossing
Om een misverstand uit de wereld te helpen: dit soort problemen los je niet op door simpelweg een datalake te implementeren. Dat is geen magische doos waar je alles in kunt gooien en die een zee aan ongestructureerde data 1-2-3 omtovert tot bruikbare informatie. De kwaliteit en relevantie van de data, de skills van de data-engineer en de overige tools die worden gebruikt zijn minstens zo belangrijk als het datalake zelf.
Een nieuwe aanpak
Het verzamelen en verwerken van data op een ongestructureerde en ondoordachte manier levert dus problemen op. Een compleet andere aanpak is nodig. Centraal daarbij staat het ontsluiten, integreren, opschonen en beschikbaar houden van data en het ontwikkelen van waardevolle dataproducten op basis van betrouwbare en actuele data. Dit is een competentie die over het algemeen niet bij datascientists aanwezig is omdat zij als uitgangspunt hebben dat de data ‘er voor ze is’. Organisaties moeten daarom voor data-engineering dezelfde principes toe passen als voor software-engineering. Door goede software-engineeringpraktijken te volgen, zorg je ervoor dat zowel de gegevens als de dataproducten consistent en betrouwbaar zijn. De belangrijkste uitgangspunten daarbij zijn kwaliteit, betrouwbaarheid, herhaalbaarheid, traceerbaarheid en onderhoudbaarheid. Daarnaast zijn een lage fouttolerantie, een hoge frequentie, goede governance, accurate monitoring, continu testen en een volledig geautomatiseerd proces van belang. Randvoorwaardelijk voor datasucces zijn overigens ook volledige ondersteuning van het senior management en investeringen in zowel goede dataproducten als nieuwe competenties binnen het datateam.
Wat verder belangrijk is: pas de strategieën van just-enough en just-in-time toe. Dat betekent dat je alleen noodzakelijke data opslaat respectievelijk dat je gegevens pas verwerkt op het moment dat ze relevant zijn. Op deze manier optimaliseer je het beheer van je data door onnodige opslag en verwerking te verminderen.
Een waardevolle bron van data
Heb je je data-engineering naar een hoger plan getild en beschik je over een volwassen dataplatform? Dan maak je van data een bron van waarde. Je datascientists kunnen dan sneller en effectiever dataproducten bouwen, je digitale slagkracht en wendbaarheid vergroten, meer flexibiliteit creëren én je datalandschap overzichtelijker, beheersbaarder, consistenter, betrouwbaarder en vooral effectiever maken. Van het verouderde datawarehouse-gebaseerde business intelligence kun je toegaan naar direct ingrijpen op basis van realtime informatie of zelfs het ontwikkelen van voorspellende modellen. Voor deze realtime besluitvorming is betrouwbare en actuele data essentieel.
Dit is een ingezonden bijdrage van Conclusion AMIS. Via deze link vind je meer informatie over de mogelijkheden van het bedrijf.