IBM-AI genereert autonoom creatieve titels voor beelden

Wetenschappers van IBM Research hebben een kunstmatig intelligentie (AI) model ontwikkeld dat zelf diverse, creatieve en overtuigende titels kan genereren voor foto’s. De wetenschappers beschrijven het model in een paper, die tijdens de Conference on Computer Vision and Pattern Recognition werd gepresenteerd.

Om het systeem te bouwen, moesten oplossingen gevonden worden voor problemen die systemen voor het automatisch maken van titels hebben, schrijft Venturebeat. Dergelijke systemen maken vaak zinnen die syntactisch correct zijn, maar homogeen, onnatuurlijk en semantisch gezien irrelevant zijn.

De wetenschappers van IBM losten dit probleem op met een ‘attention captioning-model’, waarmee de maker van de titels fragmenten van scènes in de foto die het observeert kan gebruiken om zinnen te maken. Bij iedere stap van het genereren van de titel, heeft het AI-model de keuze om visuele of tekstuele hints van de vorige stap te gebruiken.

Om te zorgen dat de gegenereerde koppen niet te veel als een robot klinken, heeft het team een generative adversarial network (GAN) ingezet om het model te trainen. Een GAN is een tweeledig neuraal netwerk dat bestaat uit generatoren die monsters produceren en uit discriminatoren die proberen om het verschil te zien tussen gegenereerde monsters en monsters uit de echte wereld. Een co-attention discriminator berekent hoe natuurlijk de zinnen zijn via een model die scènes op pixelniveau combineert met gegenereerde woorden.

Vooroordelen voorkomen

Een ander veelvoorkomend probleem in dergelijke systemen, is het hebben van vooroordelen. Systemen maken bijvoorbeeld een analyse die te dicht bij een specifieke set data zit, waarna ze slecht om kunnen gaan met scènes waar objecten die ze kennen voorkomen in contexten die het model niet kent.

Om dat te voorkomen, moest IBM Research een diagnostic-tool maken. De onderzoekers stelden voor een testcorpus te gebruiken met beelden met titels, die op zo’n manier ontworpen zijn dat slechte prestaties van een model aangeven dat de analyse te dicht bij de dataset zit.

Het uiteindelijke model werd getest met mensen van Mechanical Turk van Amazon. Zij moesten aangeven welke titels gegenereerd waren door het AI-model en bepalen hoe goed iedere titel het overeenkomende beeld beschreef. Daarbij kregen mensen zowel echte als gegenereerde voorbeelden te zien. De onderzoekers stellen dat hun model een “goede” prestatie had. De onderzoekers denken dat het model het begin kan zijn van krachtige nieuwe computer vision-systemen.

Lees meer over Analytics

Expert aan het woord

IBM-AI genereert autonoom creatieve titels voor beelden

Vooroordelen voorkomen

Blijf op de hoogte, abonneer!

Claude-maker Anthropic lijkt OpenAI voor te zijn met beursgang

OpenAI pakt open-source kwetsbaarheden aan met ‘Patch the Planet’

AI traint op AI: destillatie is grote kopzorg voor AI-labs

Scaling at speed: Hoe AI de blauwdruk van het moderne datacenter herschrijft

How HPE brought two networking giants together in under one year

Why hyperscalers run containers in VMs: VKS deep dive

AI observability and container security with Wiz at KubeCon

How Atlassian designs AI products that users can trust

Waarom een AI die ‘goed genoeg’ is vaak de slimste keuze is

Bewegend speelveld: vier datamanagementvaardigheden die Nederlandse bedrijven nu nodig hebben

AI-security begint in de boardroom

AMD “Helios”: Rack-scale AI-infrastructuur voor ondernemingen in EMEA

GITEX AI EUROPE 2026

GOTO Copenhagen 2026

Tijd om virtualisatie te evalueren

Klarrio: Architectuur is grootste knelpunt of grootste versneller

Zo gaat jouw IT-organisatie van reactief trainen naar roadmap-gedreven skills-opbouw