4min

Tags in dit artikel

, , ,

De verschillende soorten Big Data

Om gebruik te maken van Hadoop of de diensten van HortonWorks heb je data nodig, veel data. Niet enkele honderden gigabytes, maar terabytes of petabytes aan data. Dan komt een platform als Hadoop echt tot zijn recht. Hoe groter het volume, des te beter is het, omdat de conclusies die uit de data getrokken kunnen worden dan vaak nauwkeuriger zijn.

Er zijn echter wel een paar zaken om rekening mee te houden, want data is er in verschillende vormen. Je hebt gestructureerde data, denk aan Excel-bestanden met kolommen en gegevens; zoals naam, adres, woonplaats, telefoonnummer, enzovoorts. Er is echter ook ongestructureerde data, denk bijvoorbeeld aan social media-plaatsingen, e-mails, Word-documenten, PDF’s en dergelijke. Dat kan zorgen voor een wat grotere uitdaging.

Om op basis van enkele petabytes aan data in een platform als Hadoop conclusies te kunnen trekken, moet je vooraf proberen enig zicht te krijgen in de kwaliteit van de data. Als de data niet goed of onbetrouwbaar is, dan kan je wel conclusies trekken uit een enorme berg data, maar de kans dat die conclusie vervolgens fout is, is ook weer vrij groot. Kwaliteit van data is dus belangrijk. Als deze te rauw is of de herkomst is niet helemaal duidelijk, dan is het vaak beter om het dan maar niet te gebruiken en te focussen op de data die wel van een goede kwaliteit is.

Tot slot kan je Big Data op twee manieren verwerken, de eerste is zoals hiervoor beschreven, opgeslagen data waarop analyses worden losgelaten, de tweede is streaming data waarop realtime analyses worden losgelaten. Een goed voorbeeld van streaming data zijn zelfrijdende auto’s. Tesla gebruikt voor zijn autopilot-feature streaming data, want er moet binnen enkele milliseconden worden gereageerd. Als er ineens een kind de weg op rent, moet dat worden geanalyseerd uit de data en moet de auto remmen. Het opslaan van de data in een database en het vervolgens pas analyseren zou ervoor zorgen dat de auto niet op tijd tot stilstand komt. De snelheid waarmee data wordt verwerkt is dus ook belangrijk. De beste resultaten zijn te behalen door steaming data te analyseren.

Iedereen gebruikt straks Big Data

Veel consumenten en werknemers maken al gebruik van Big Data zonder dat ze dit beseffen. De groep mensen die een Tesla op de oprit hebben staan is nog beperkt, maar in Nederland gebruiken wel meer dan een miljoen mensen Spotify. Deze populaire muziekdienst maakt ook gebruik van Hadoop om de beluisterde nummers bij te houden. Hierop worden ook analyses losgelaten, bijvoorbeeld welk nummer mensen na een specifiek nummer beluisteren. Ook maakt Spotify altijd aan het einde van het jaar persoonlijke overzichten van meest beluisterde nummers en worden er statistieken per land gepubliceerd.

Een ander bedrijf dat veelvuldig gebruikmaakt van Big Data is bijvoorbeeld Uber, om de locatie van de voertuigen realtime bij te houden en ervoor te zorgen dat nieuwe ritten snel kunnen worden opgepakt. Google gebruikt ook veel Big Data, bijvoorbeeld met Google Analytics. Daarmee houden veel uitgevers bij hoe vaak hun website per dag wordt bezocht, maar zijn ook vele andere analyses mogelijk, bijvoorbeeld hoe lang iemand op de website is geweest, welke pagina’s er zijn bezocht, waar de bezoeker vandaan kwam en wanneer de bezoeker is afgehaakt.

Ook spraakdiensten zoals Amazon’s Alexa, Apple’s Siri en Google Now maken gebruik van Big Data, maar hier wordt dan nog een stukje kunstmatige intelligentie aan toegevoegd. De bedrijven hanteren gigantische databases met informatie, maar ook met eerdere verzoeken om beter te begrijpen wat de gebruiker precies wil weten.

We hebben ook de ABN Amro en de ING gesproken, die gebruiken Hadoop voor verschillende doeleinden. De meeste zijn op dit moment intern, maar de ING heeft ook een publieke dienst die op Hadoop is gebaseerd. In de mobiele app van de ING kan je gebruikmaken van de feature “Kijk vooruit”, daarin kun je zien welke uitgaven eraan zitten te komen. Dit is deels gebaseerd op ingeplande betalingen, maar ook deels op het eerdere uitgavepatroon. Deze patronen worden via het Hadoop-platform herkend.

Banken gebruiken Big Data verder om hun risico’s te verkleinen en om bijzonderheden te detecteren. Heel spraakzaam zijn ze hier op dit moment niet over, wel wilden ze kwijt dat als er een aanvraag wordt ingediend voor een lening een Big Data-analyse soms een bepaalde score kan geven, waardoor iemand wel of geen geld krijgt verstrekt. Daarnaast zullen de banken Big Data ongetwijfeld ook gebruiken als beveiligingsmiddel. Als je alle transacties van personen in een database kan zetten, kan je er ook een gedragsanalyse op loslaten en als een nieuwe transactie daar extreem van afwijkt kan een bank daar actie op ondernemen. Dat is iets wat zonder Big Data ongetwijfeld ook al gebeurde, maar met deze Big Data-platformen wordt dat een stuk makkelijker.

Big Data in het MKB

Als we gaan kijken naar Big Data in het MKB dan komen we al snel tot de conclusie dat er nog vrijwel niemand Big Data-oplossingen beschikbaar heeft of ontwikkelt voor het MKB. Alle Big Data-platformen, resellers en specialisten mikken nu nog op het enterprise-segment. Dit komt voornamelijk doordat er een groot tekort is aan Big Data-experts en je bij enterprise-organisaties het grote geld kan verdienen. In het MKB heb je vaak veel meer klanten nodig om dezelfde omzet/winst te halen.

Uiteindelijk zal dat probleem een keer opgelost worden en zullen er bedrijven komen die Big Data-oplossingen gaan aanbieden aan het MKB. Waarschijnlijk duurt dat nog een paar jaar, maar dat het voor elk bedrijf zinvol is om te investeren in Big Data, daarvan zijn we wel overtuigd. In elke sector zijn er wel toepassingen te bedenken waarmee data ervoor kan zorgen dat de resultaten beter worden. En dat laatste is iets wat iedere ondernemer natuurlijk graag wil realiseren.