‘TrojAI-raamwerk moet aanvallen op AI-modellen testen’

Abonneer je gratis op Techzine!

Onderzoekers van de John Hopkins Universiteit in de Verenigde Staten hebben een de set TrojAI-tools ontwikkeld voor het ‘wapenen’ van AI-modellen tegen aanvallen van cybercriminelen. Doel van het raamwerk is ontdekken hoe AI-modellen op basis van machine learning het beste tegen aanvallen zijn te beschermen.

Ook AI ontkomt tegenwoordig niet meer aan aanvallen door cybercriminelen. De onderzoekers van de Amerikaanse universiteit hebben daarom nu een framework ontwikkeld, genaamd TrojAI, dat moet helpen om aanvallen op AI-modellen tegen te gaan. Het framework richt zich vooral op AI op basis van machine learning en op aanvallen met trojans.

Het framework van tools moet machine learning-modellen testen in welke mate zij tegen aanvallen met trojans bestand zijn. Hiervoor wordt een AI-model zodanig aangepast dat het moet antwoorden op bepaalde aangepaste input data die incorrecte antwoorden moeten opleveren. De tools leveren de aangepaste data sets en vervolgens AI-modellen op die met trojans besmet lijken. Het raamwerk zorgt er ook voor dat deze testen vaker worden herhaald en uitbreidbaar zijn.

Uiteindelijk moeten deze testen de onderzoekers inzicht geven wat de effecten zijn van verschillende dataset-configuraties op de gegenereerde ‘trojan’-modellen. Hiermee kunnen vervolgens weer nieuwe testmethoden voor het detecteren van trojans worden ontwikkeld.

Stappenplan

Meer concreet bestaat het framework uit een set van Python-modules waarmee de onderzoekers ‘trojan’AI-classificatie- en verstevigingsleermodellen kunnen vinden en genereren. In de classificatie of configuratie wordt eerst de mate bepaald waarin data wordt ‘besmet’ om op een doeldataset te worden toegepast. Bij de tweede stap traint de architectuur van het AI-model. In de derde fase worden de leerparameters van het model bepaald. De vierde stap bepaalt het aantal te trainen modellen.

De op deze manier geconfigureerde dataset wordt vervolgens ‘opgenomen door het hoofdprogramma dat vervolgens de gewenste ‘geïnfecteerde’ modellen genereert. Als alternatief voor een dataset, kan ook een ‘te besmetten’ omgeving worden gecreëerd waarmee het te onderzoeken model wordt getraind.

Vervolgens creëert een submodule voor het genereren van gegevens – datagen – een synthetisch ‘lichaam’ met beeld- of tekstvoorbeelden, terwijl de submodule voor het genereren van modellen – modelgen – een set modellen traint die een trojan bevatten.

Statistieken belangrijk

Uiteindelijk verzamelt TrojAI verschillende statistieken bij het trainen van modellen op de trojaned datasets of omgevingen, inclusief de prestaties van het getrainde model op data voor alle voorbeelden in de testdataset die geen ‘besmetting’ hebben ingebouwd.

Andere statistieken die worden verzameld, zijn onder meer de prestaties van het getrainde model voor voorbeelden met de ingebouwde ‘besmetting’ en de prestaties van het model op duidelijke voorbeelden van data die werden geactiveerd tijdens modeltraining. Alle statistiek moet er uiteindelijk tot leiden dat er vertrouwen is dat het onderzoeksmodel voldoende is ‘getrojaniseerd’ en tegelijkertijd de originele dataset waarvoor het testmodel is ontworpen hoge prestaties blijft leveren.