Google-framework leert AI werken met gestructureerde en ‘adversarial’ data

Google heeft een nieuw framework open source gemaakt, waarmee kunstmatige intelligentie (AI)-modellen kunnen leren werken met gestructureerde en “adversarial” data. Het gaat om Neural Structured Learning, dat voor AI-ontwikkelingstoolkit TensorFlow werd gemaakt.

Met het framework kunnen ontwikkelaars gestructureerde data meenemen in een project door slechts een paar regels code te schrijven, schrijft Silicon Angle. Ontwikkelaars moeten alleen hun AI-model klaarmaken, de trainingsgegevens aanbieden en aangeven wat de structuur is waarmee de gegevens georganiseerd moeten worden.

Hoewel AI-modellen vooral ongestructureerde data verwerken – bijvoorbeeld video’s en foto’s – blijft ook gestructureerde informatie als grafieken nuttig. Dergelijke informatie kan gebruikt worden om nieuw ontwikkelde AI-modellen te leren hoe ze patronen efficiënt kunnen herkennen.

Google-engineers Da-Cheng Juan en Sujith Ravi stellen dat het gebruik van gestructureerde signalen bij de training ontwikkelaars kan helpen om een hogere accuraatheid te behalen. Dat geldt “zeker als er een relatief kleine hoeveelheid gelabelde data” aanwezig is.

Het verwerken van gestructureerde data is daarnaast een belangrijke taak voor bepaalde soorten machine learning-software. Zo gebruiken de AI-modellen die wetenschappers inzetten bij genomics en moleculair onderzoek vaak gestructureerde data als input. Dat geldt ook voor bepaalde soorten natural language processing-algoritmes.

Tegenstrijdige voorbeelden

Het framework laat ontwikkelaars verder “impliciete” structuren specificeren, om zogenaamde adversarial (tegenstrijdige) sampels te maken. Dat zijn bijvoorbeeld malafide bestanden – zoals een foto met gemanipuleerde pixels – die voor een mens niet anders lijken, maar een AI fouten kan laten maken en corrupte verwerkingsresultaten kan veroorzaken.

Door dergelijke gegevens tijdens de ontwikkeling aan een machine learning-model te geven, kan de software leren hoe het dergelijke aanvallen moet afslaan.

“Modellen die getraind zijn zonder adversarial samples, hebben een significant verlies in accuraatheid als er malafide, maar niet door mensen te detecteren verstoringen worden toegevoegd aan de inputs”, stellen de Google-engineers. Volgens de engineers is de accuraatheid in die gevallen wel 30 procent lager.