8min

Garbage in, garbage out is een gevleugelde uitspraak in de wereld van data en het ontwikkelen van analytics-modellen. Quantexa wil ervoor zorgen dat er geen garbage meer in de modellen terechtkomt.

Denk je aan zaken zoals decisioning engines, data-analyse en andere datagerelateerde hoogstandjes, dan gaan de gedachten vaak naar mooie analytics-modellen op basis waarvan organisaties hun belangrijke beslissingen nemen. Die modellen moeten echter ook voorzien worden van data, bij voorkeur data die ergens op slaat. Dat is eenvoudiger gezegd dan gedaan, want deze data komt vaak uit een groot aantal systemen/bronnen, met verschillende onderliggende datamodellen.

De complexiteit van gegevens uit verschillende bronnen, kan bijvoorbeeld zorgen voor veel onduidelijkheid over wie iemand nu daadwerkelijk is. Is het iemand met goede bedoelingen die her en der een typfoutje maakt? Of hebben we te maken met een fraudeur die probeert zijn ware identiteit te verbergen? Verschillende bronnen kunnen ook zorgen voor veel vervuiling in de data. Denk hierbij vooral aan data die meer dan een keer beschikbaar is in verschillende formats. Hoe kom je erachter of de persoon, of het adres, in de ene database dezelfde zijn als in de andere?

Om bovenstaande vragen te kunnen beantwoorden en goede beslissingsmodellen te kunnen bouwen, heb je een oplossing nodig die kan omgaan met de variëteit aan data. Quantexa biedt zo’n oplossing. In principe kan de technologie van het bedrijf voor meerdere sectoren meerwaarde bieden. Van oudsher richt het zich op banken om deze te helpen bij het bestrijden van financiële criminaliteit. Inmiddels heeft het ook regelgevers in de bancaire wereld als klant. Daarnaast zijn de eerste stappen naar de overheid ook al gezet. Andere sectoren die de warme belangstelling hebben van Quantexa zijn de telecomindustrie en verzekeraars.

Om meer te weten te komen over Quantexa, spraken we recent met Wouter Kroon en Wouter Lang. Wat maakt de oplossing van Quantexa bijzonder? In het vervolg van dit artikel proberen we die vraag te beantwoorden.

Lees ook: Quantexa haalt 129 miljoen dollar aan investeringen op

Zonder goede data geen effectieve AI of ML

Er is veel te doen om datagedreven werken. Veel organisaties claimen het te doen, of het in ieder geval na te streven. De grote vraag hierbij is welke data men gebruikt om dit te realiseren. Datagedreven werken op basis van een subset aan data zal namelijk niet het maximale rendement leveren.

Bovenstaande is echter wel wat veel organisaties op dit moment doen, constateert Kroon. Hij maakt het probleem van datagedreven werken op basis van ‘verkeerde of onvolledige’ data inzichtelijk middels een analogie naar het kopen van een huis. “Als je een huis koopt wil je niet alleen een blik door de brievenbus werpen. Je wilt alle data over het huis van binnen en buiten gebruiken in je afweging; kamers, de keuken, de tuin, etc. Bovendien loop je ook een rondje door de buurt en onderzoek je voorzieningen in de omgeving. Wij noemen al deze informatie samen de context van het huis.”

Veel organisaties moeten op dit moment nog beslissingen nemen op basis van een subset aan data. Dat is het equivalent van het bezichtigen van een huis door de brievenbus. Dit geeft je nooit het inzicht dat nodig is om een afgewogen, stevig onderbouwde, beslissing te nemen. Een decisioning engine die een dergelijke beperkte blik op de aanwezige data heeft zal evengoed moeite hebben om goede, gefundeerde, beslissingen te nemen.

Conceptueel is bovenstaande analogie prima te snappen. Toch is het in de datapraktijk van alledag allerminst gebruikelijk om wel die voordeur open te doen, binnen te lopen en goed rond te kijken. Veel projecten rondom AI en ML lopen dan ook spaak op datakwaliteit, of eigenlijk het gebrek daaraan, geeft Kroon aan. Het aan elkaar knopen van alle data en zo een rijke context opbouwen is een heidens, vaak terugkerend, karwei. Het gaat dan vooral om het vinden van de zogeheten entiteiten. Dit zijn zaken zoals personen, adressen, ip-adressen, auto’s, en eigenlijk alle dingen die we kennen uit de echte wereld. Om deze entiteiten te vinden is entity resolution nodig. En dat is waar veel van de kennis en kunde van Quantexa in zit.

Van traditioneel matchen naar entity resolution

Een van de uitgangspunten van de oplossing die Quantexa biedt is dat de oplossing geen voorgeschreven datamodel heeft. Dat is tamelijk onderscheidend voor Quantexa, horen we van Lang. We zagen al dat verschillende bronnen vaak ook verschillende datamodellen gebruiken. Wanneer er sprake zou zijn van een vooraf gedefinieerd datamodel in de wereld waarbinnen Quantexa actief is, dan zouden alle databronnen op het Quantexa-model terecht moeten komen. Deze ‘mapping’ is vaak een substantieel deel van een implementatie. Want welke structuur moet je kiezen, als je met zoveel verschillende datamodellen en dus mappingvarianten zit? Dat maakt bij Quantexa dus niet uit. Het brengt alle data samen en gebruikt alle bronnen, ongeacht de data-kwaliteit, in haar platform.

Entity resolution is een vorm van matchen maar dan op een meer iteratieve manier, over alle datavelden heen. Door hierbij niet alleen te kijken naar interne data maar deze ook te combineren met gegevens uit externe bronnen is Quantexa in staat om nog beter te matchen. Dat zorgt er bijvoorbeeld voor dat fraudeurs die niet gevonden willen worden en “kleine foutjes” in naam, adres of geboortedatum maken toch gevonden worden. Uitkomst, en vaak zeer waardevolle bijvangst, van dit proces is ook dat men zoveel mogelijk data ontdubbelt.

Entity resolution zorgt voor zinvolle verbanden

Entity resolution, zeg maar de overtreffende trap van het traditionele matchen, is iets waar Quantexa volgens Kroon en Lang heel erg goed in is. Als we vragen naar bewijs voor deze claim, geeft Lang aan dat ze meegedaan hebben met een wedstrijd. Dit was een wedstrijd rondom het accuraat matchen van entiteiten. De score van Quantexa was 99 procent accuraatheid, de laagste score was 35 procent. Wat dit nu precies zegt over de prestaties van Quantexa in de praktijk, is lastig te beoordelen voor ons. Het maakt in ieder geval wel duidelijk dat er veel verschil is tussen verschillende oplossingen. Dat is goed om te weten als je als organisatie worstelt met de kwaliteit van je data.

Door de onderscheidende entity resolution is het mogelijk om verbanden te leggen die meteen veel relevante inzichten kunnen bieden. Ook voor het analyseren van de verbanden, al dan niet met AI-modellen, en het visualiseren van de relaties biedt het platform uitgebreide mogelijkheden.  De presentatie van die verbanden wordt gedaan middels een netwerkweergave. Hierin is eenvoudig te zien hoe de verschillende datapunten (nodes) met elkaar in verbinding staan.

Quantexa biedt entity resolution, het genereren, analyseren en presenteren van netwerken, in meerdere smaken. Er is een meer traditionele variant, die de stappen in batch uitvoert. Daarnaast is er ook nog een real-time en een dynamische variant. In deze gevallen bouwen ze alle netwerken in real-time op. Als iemand binnen een organisatie inlogt om naar een netwerk te kijken, controleert Quantexa ook meteen welke rechten deze heeft en laat alleen die informatie zien die deze persoon op basis van zijn of haar autorisatieniveau mag zien. Dit kunnen ze doen door te maskeren, maar ook door er echt helemaal geen spoor van achter te laten. Dat laatste is iets wat veel andere tools op de markt niet kunnen. Quantexa gebruikt voor deze role-based access overigens bij voorkeur gewoon de privileges van al aanwezige systemen als LDAP of Azure AD.

Ondersteunt alle data, maar doet niet alles

Quantexa heeft voor zichzelf heel duidelijk gedefinieerd wat het wel en niet doet. Ze ondersteunen in principe alle data, zowel gestructureerd als ongestructureerd. Ze beperken zich echter verder tot datgene waar ze goed in zijn, geeft Lang aan.

Als voorbeeld haalt hij de Quantexa-oplossing voor ContextualDecisionIntelligence aan. Dat biedt een analytics framework voor het operationaliseren van analytische modellen. Het is daarnaast ook een user-interface voor het beoordelen van uitkomsten van de analyses en het doen van onderzoek. De oplossing is echter geen volledig case managementsysteem. Daarvoor legt Quantexa liever een koppeling met andere tools, die meestal toch al in gebruik zijn bij de opdrachtgever.

Ook het inscannen van documenten is geen core business, noemt Lang als tweede voorbeeld. Dat zal een organisatie met een andere softwarecomponent moeten doen. Wel durft Lang de stelling aan dat de kans aanwezig is dat Quantexa met de output van een goedkope scanner betere resultaten kan boeken dan de concurrentie, omdat de entity resolution gemakkelijk om kan gaan met foutjes als gevolg van een scan van mindere kwaliteit.

Verder is het ook nog goed om op te merken dat Quantexa volledig gebouwd is met open-source tooling. Je kunt het koppelen met om het even welke andere tool. Lang noemt Dataiku als voorbeeld, omdat dit zeker in de sectoren waarin het actief is een grote speler is op het gebied van analytics.

De openheid van het platform van Quantexa houdt in dat het bedrijf een belangrijk bouwblok is in de datagedreven benadering. Het integreert liever in het bestaande applicatielandschap van een klant dan dat zij al bestaande, goedwerkende, functionaliteit wil vervangen. Dat is op zich een moderne manier van werken en ook eentje die past bij een nieuwe partij zoals Quantexa. Voor klanten is dit echter nog wel wennen, geeft Lang aan. Die zoeken vaak een duidelijk afgebakend product. Dan is het soms even zoeken waar Quantexa het meeste waarde kan toevoegen en met welke insteek ze beginnen. Daarna is het aan Quantexa om te bewijzen dat hun entity resolution daadwerkelijk beter is dan die van anderen.

Wat is de winst?

Als je er als organisatie voor zorgt dat data goed bruikbaar is voor je deze ergens anders als input aanbiedt, dan ligt de eerste winst voor de hand. De uitkomsten van om het even welk analytics-model dat je erop loslaat, zullen significant beter zijn dan wanneer je dit niet doet. Althans, als je het inzet in een omgeving waarvoor het is bedacht. Hoeveel beter is lastig te zeggen, dat zal ongetwijfeld afhangen van allerlei factoren. Maar dat het eindresultaat erop vooruitgaat, lijkt ons een no-brainer. Het moet uiteraard allemaal wel betaalbaar zijn, maar in de sectoren waar Quantexa zich primair op richt is de business case vaak niet moeilijk.

Naast betere prestaties moet er echter ook flinke winst mogelijk zijn op het gebied van de tijd die het duurt om een onderzoek te doen, bijvoorbeeld naar eventuele fraude of witwassen. Lang heeft het in dit kader over het terugbrengen van de onderzoekstijd van weken naar vijf minuten. Als dat in de praktijk ook echt haalbaar is met de oplossing van Quantexa, dan zou het ons niet verbazen als dit bedrijf heel snel klanten aan zich weet te binden, naast de grote namen die het nu al in haar CRM heeft staan, waaronder ABN Amro en ING.