Potentieel van synthetische data is enorm

Abonneer je gratis op Techzine!

Volgens Gartner zal tegen 2024 60% van de gegevens die gebruikt worden voor de ontwikkeling van AI en analytische oplossingen synthetisch gegenereerd zijn. Nu, in 2021, zien we dat synthetische data een relatief nieuw onderwerp is voor veel organisaties. Het potentieel van synthetische data is enorm, en dat geldt ook voor de weg naar de realisatie van die voorspelde 60%.

Beschikbaarheid van en toegang tot data is cruciaal voor de ontwikkeling van AI-toepassingen. Voor veel organisaties vormt snelle beschikbaarheid van data een enorm struikelblok. Vooral start-ups en scale-ups, met vaak jonge enthousiaste, maar onervaren AI-ontwikkelaars, hebben vaak minder kennis van de eisen en belemmeringen bij het gebruik van data, en willen snel met nieuwe technologie de markt op. Uitdagingen die ze daarbij tegenkomen zijn bijvoorbeeld:

  • Is er relevante data voor de toepassing?
  • Is de organisatie bereid die data te delen?
  • Kan de data technisch beschikbaar komen?

Daar is de laatste jaren een belangrijke uitdaging bijgekomen:

  • Kan dat binnen de bestaande strenger wordende regelgeving? Denk daarbij aan privacy regelgeving inclusief de administratieve afhandeling zoals verwerkersovereenkomst, (data) privacy impact assessment (DPIA) etc. 

Artikel gaat verder na onderstaand kader

Wat is synthetische data precies?

Waar originele data wordt verzameld via interacties met individuen wordt synthetische data gegenereerd door een computeralgoritme dat volledig nieuwe en kunstmatige datapunten genereert. Nieuw hierin is het om AI toe te passen in het data syntheseproces om de gegenereerde synthetische data dusdanig te modelleren dat het de kenmerken, relaties en statistische patronen uit de originele dataset nabootst. Data is volledig onherkenbaar gemaakt en niet meer herleidbaar tot een individu. De relaties tussen de verschillende synthetische features blijven daarbij wel intact. In synthetische data als geheel zit nog steeds dezelfde informatie, maar is per record niet meer herleidbaar. Het is alsof je met echte data werkt. Het is nog steeds wel mogelijk om verbanden te maken en statistische patronen te vinden. 

Als je bijvoorbeeld patiëntdata in een ziekenhuis wilt gebruiken, ben je weken bezig met allerlei juridische procedures rondom het gebruik van data. Door het synthetiseren van data maak je dit gebruik toch mogelijk, met behoud van informatie.  

Samenwerking SAS, Syntho en NL AIC

SAS en startup Syntho zijn in samenwerking met de Nederlandse AI Coalitie (NL AIC) een onderzoek gestart om te onderzoeken wat de waarde is van synthetische data ten opzichte van de echte data bij het ontwikkelen van modellen en het operationaliseren van analytics.

Syntho en SAS hebben samen AI gegenereerde synthetische data met de originele datasets vergeleken en beoordeeld op datakwaliteit, juridische validiteit en bruikbaarheid. Door de originele data om te zetten naar synthetische data en vervolgens te vergelijken, werd gekeken of de synthetische vorm dezelfde voorspelkracht had als de originele data. Aanvullend werd dit in een breder perspectief geplaatst door het te vergelijken met reeds bestaande Privacy Enhancing Technologies (PETs).

Met dit onderzoek werd in kaart gebracht wat de toegevoegde waarde van synthetische data is en wanneer synthetische data wel of niet bruikbaar is. Dit biedt organisaties en de NL AIC meer inzicht in de vervolgstappen die ze moeten nemen om de ontwikkeling en toepassing van met AI ontwikkelde synthetische data te stimuleren. 

Toepassingen van synthetische data

Er zijn een aantal toepassingen van synthetische data mogelijk zoals:

  • Testen van functionaliteit in software
    Het testen van software waarbij data nodig is om de functionaliteit goed te testen. Bij voorkeur met allerlei varianten en uitzonderingen waarbij situaties worden gesimuleerd die in het echt ook voorkomen.
  • Geven van software demonstraties
    Het ontwikkelen van demomateriaal die de echte situatie zo goed mogelijk weergeeft. Vaak is data uit specifieke bedrijfsonderdelen of sectoren niet voorhanden en wil je toch de demo laten aansluiten op die situatie.
  • Ontwikkelen van modellen
    Als je modellen bouwt op synthetische data, hoe zorg je er dan voor dat de kracht van de modellen hetzelfde blijft als op de originele data? In het onderzoek van SAS en Syntho is hier specifiek aandacht aan besteed.
  • Delen van data
    Voor het delen en opslaan van data kan het voldoende zijn de gesynthetiseerde vorm te gebruiken, mits deze als geheel dezelfde (statistische) informatie bevat. Op die manier kan er worden voldaan aan de wettelijke bewaartermijnen van (persoons)gegevens zonder dat er waardevolle informatie verloren gaat, en wordt voorkomen dat informatie over individuen onbedoeld gedeeld of opgeslagen wordt.

SAS D[N]A Cafe over waarde synthetische data

Organisaties worstelen met het definiëren van business cases die waarde toevoegen of met het vormen van een concreet startpunt. Daarom organiseerden SAS en Syntho op 7 oktober een D[N]A Cafe waarbij werd ingegaan op vragen zoals:

  • Waarom zou je met synthetische data aan de slag gaan?
  • Wat is de statistische integriteit van synthetische data voor het ontwikkelen van modellen en het operationaliseren van analytics?
  • Hoe zit het met privacy? Hoe onderscheidt het zich van andere Privacy Enhancing Technologies (PET’s)?
  • Hoe werkt het en waar te beginnen?
  • Hoe kom je aan waardevolle businesscases voor synthetische data?

Ben je benieuwd naar het antwoord op deze vragen, luister dan naar de recording van dit Cafe.

Dit is een ingezonden bijdrage van SAS. Via deze link vind je meer informatie over de mogelijkheden van het bedrijf.