IBM-AI genereert autonoom creatieve titels voor beelden

Wetenschappers van IBM Research hebben een kunstmatig intelligentie (AI) model ontwikkeld dat zelf diverse, creatieve en overtuigende titels kan genereren voor foto’s. De wetenschappers beschrijven het model in een paper, die tijdens de Conference on Computer Vision and Pattern Recognition werd gepresenteerd.

Om het systeem te bouwen, moesten oplossingen gevonden worden voor problemen die systemen voor het automatisch maken van titels hebben, schrijft Venturebeat. Dergelijke systemen maken vaak zinnen die syntactisch correct zijn, maar homogeen, onnatuurlijk en semantisch gezien irrelevant zijn.

De wetenschappers van IBM losten dit probleem op met een ‘attention captioning-model’, waarmee de maker van de titels fragmenten van scènes in de foto die het observeert kan gebruiken om zinnen te maken. Bij iedere stap van het genereren van de titel, heeft het AI-model de keuze om visuele of tekstuele hints van de vorige stap te gebruiken.

Om te zorgen dat de gegenereerde koppen niet te veel als een robot klinken, heeft het team een generative adversarial network (GAN) ingezet om het model te trainen. Een GAN is een tweeledig neuraal netwerk dat bestaat uit generatoren die monsters produceren en uit discriminatoren die proberen om het verschil te zien tussen gegenereerde monsters en monsters uit de echte wereld. Een co-attention discriminator berekent hoe natuurlijk de zinnen zijn via een model die scènes op pixelniveau combineert met gegenereerde woorden.

Vooroordelen voorkomen

Een ander veelvoorkomend probleem in dergelijke systemen, is het hebben van vooroordelen. Systemen maken bijvoorbeeld een analyse die te dicht bij een specifieke set data zit, waarna ze slecht om kunnen gaan met scènes waar objecten die ze kennen voorkomen in contexten die het model niet kent.

Om dat te voorkomen, moest IBM Research een diagnostic-tool maken. De onderzoekers stelden voor een testcorpus te gebruiken met beelden met titels, die op zo’n manier ontworpen zijn dat slechte prestaties van een model aangeven dat de analyse te dicht bij de dataset zit.

Het uiteindelijke model werd getest met mensen van Mechanical Turk van Amazon. Zij moesten aangeven welke titels gegenereerd waren door het AI-model en bepalen hoe goed iedere titel het overeenkomende beeld beschreef. Daarbij kregen mensen zowel echte als gegenereerde voorbeelden te zien. De onderzoekers stellen dat hun model een “goede” prestatie had. De onderzoekers denken dat het model het begin kan zijn van krachtige nieuwe computer vision-systemen.