IBM ontwikkelt ML-trainingsmodel met minimale persoonlijke gegevens

IBM heeft een machine learning-trainingsmodel op basis van generalisatie ontwikkeld dat zo weinig mogelijk persoonlijke gegevens gebruikt. Hiermee kunnen ontwikkelaars modellen bouwen die in zeer hoge mate voldoen aan de Europese privacywet- en regelgeving GDPR.

Het trainen van ML-modellen met zo min mogelijk persoonlijke gegevens is lastig. Ontwikkelaars hebben moeite met het bepalen van de juiste minimale hoeveelheid persoonlijke gegevens voor het kunnen trainen van ML-modellen voor het brengen van de meest accurate voorspellingen of classificaties.

Big Blue pakt het probleem aan met een nieuwe trainingsoptie waarbij minder persoonlijke data in de trainingsdatasets wordt gebruikt via een ‘generalisatieproces’. Hiermee wordt toch de juiste accuratesse opgeleverd van modellen die wel een grote hoeveelheid persoonlijke gegevens in de trainingsdatasets gebruiken.

Generalisatieproces

Het trainingsproces verwijdert of generaliseert enkele van de input-eigenschappen van de persoonlijke data die wordt gedraaid. Hierbij wordt de ‘waarde’ van een bepaalde eigenschap in kleinere specifieke en in algemene waardes ‘gebroken’.

Bijvoorbeeld een specifieke leeftijd wordt dan aangeduid in een leeftijdscategorie. Of in plaats van ‘getrouwd/nooit getrouwd/gescheiden’ worden alleen de waardes ‘nooit getrouwd/ gescheiden’ toegekend. Hierbij verdwijnt er een waarde, maar de accuratesse blijft gehandhaafd omdat ‘gescheiden’ impliceert dat iemand ooit getrouwd was.

De gegeneraliseerde waardes worden vervolgens geanalyseerd als een meetgegeven. IBM koos hiervoor het NCP-meetgegeven omdat dit zich het beste zou lenen voor data privacy.

Vergelijking met baseline voor accuratesse

In hun ontwikkelproces selecteerden de onderzoekers van Big Blue een dataset en trainden meerdere target-modellen voor het creëren van een ‘baseline’. Vervolgens werd generalisatie toegepast en werd de accuratesse berekend en opnieuw berekend. Dit ging met zogenoemde beslisbomen die naar boven en beneden kunnen worden aangepast. Hiermee kon de mate van generalisatie worden verhoogd of verlaagd. De uiteindelijke generalisatieuitkomst werd vervolgens vergeleken met die van de baseline en kon zo de accuratesse worden vastgesteld.

Wanneer het hele trainingsproces werd gegeneraliseerd zagen de IBM-specialisten de accuratesse niet onder de 33 procent komen. In sommige gevallen werd zelfs een accuratesse behaald van 100 procent met een beetje generalisatie.

Ook kostenbesparing mogelijk

Volgens Big Blue biedt de nieuwe trainingsmethode vanzelfsprekend veel mogelijkheden voor het voldoen aan privacywet- en regelgeving. Ook levert dit trainingsproces kleinere datasets op, waardoor bedrijven ook kunnen besparen op datastorage en -beheer.

Lees meer over Analytics

Expert aan het woord

Whitepapers

Tijd om virtualisatie te evalueren

Het is begrijpelijk dat veranderingen in de fundering van de IT-infra...

Blijf op de hoogte, abonneer!

Red Hat OpenShift gaat taai virtualisatie-hoofdpijndossier te lijf

Fable 5 keert terug en Anthropic wil nu de regels voor AI bepalen

Juridische problemen Supermicro stapelen zich op

Dawnguard belooft echte shift-left: “enige oplossing is iets bouwen wat niet kwetsbaar is”

From edge nodes to 256-GPU clusters: HPE's private cloud explained

AI security threats facing open source ecosystems in 2026

Why OpenSearch doubled downloads under open governance

How Google scaled Kubernetes to 130,000 nodes for AI workloads

Device code phishing-aanval: een ongeluk zit in een klein hoekje

Hoe inconsistente AI een probleem is voor multinationals

Waarom een AI die ‘goed genoeg’ is vaak de slimste keuze is

Bewegend speelveld: vier datamanagementvaardigheden die Nederlandse bedrijven nu nodig hebben

GOTO Copenhagen 2026

Tijd om virtualisatie te evalueren

Klarrio: Architectuur is grootste knelpunt of grootste versneller

Zo gaat jouw IT-organisatie van reactief trainen naar roadmap-gedreven skills-opbouw