Facebook wil interessanter worden voor mensen. Daarvoor doet het nu uitgebreid onderzoek naar een neuraal netwerk dat captions voor foto’s moet genereren die interessanter zijn voor mensen. Het gaat om verschillende tonen die aangeslagen worden en uitdrukkingen die mensen moeten laten nadenken en tot interactie aanzetten.

Onderzoekers van de Facebook AI-unit willen dat er bijvoorbeeld een uitdrukking als “het was zo’n mooie dag bij de wedstrijd” komt te staan bij een foto van een voetbalstadion. Of een foto van een huis dat er enigszins duister uitziet, moet een onderschrift als “Door dit huis en deze straat voel ik me zo ongemakkelijk” krijgen. Op die manier hoopt Facebook aantrekkelijker te zijn voor mensen.

Persoonlijkheid toevoegen

Onderzoekers bij Facebook hebben daarvoor een manier ontwikkeld om een machine learning model te trainen om niet alleen droogfeitelijke weergaves te maken van beeldmateriaal, maar om ook op uiteenlopende manieren te reageren op wat er in beeld staat. Dat zou dan interessanter moeten zijn voor een persoon en vooral ook een bepaalde persoonlijkheid moeten bevatten.

Traditionele machine learning taken kunnen enkel succesvol een foto omschrijven. Die omschrijvingen “zijn als captions niet aantrekkelijk voor mensen”. Door wat persoonlijkheid toe te voegen aan de omschrijvingen, komt daar verandering in. Het kan dan om uiteenlopende beschrijvingen gaan, van een lieve boodschap tot iets arrogants of angstvalligs. Een foto van een boterham kan omschreven worden als “een heerlijke boterham” of “ik kan iets beters maken dan dit”.

Meerdere nieuwe technieken

Het model voert uit een aantal taken uit. Op de eerste plaats analyseert het de afbeelding om de inhoud ervan vast te stellen. Op de tweede plaats wordt er een zin gegenereerd op basis van die inhoud. Beide technieken zijn relatief nieuw en de combinatie is volgens Facebook revolutionair. Toch werkt het TransResNet-model, zoals het genoemd is, niet altijd feilloos. Onderstaande afbeelding laat zien wat voor resultaten er bij verschillende afbeeldingen geproduceerd worden.

Toch is TransResNet volgens de ontwikkelaars beter dan de standaard benchmarks die op afbeeldingen toegepast worden om er een omschrijving van de genereren. Mensen gaven bij proeven in grote meerderheid aan dat ze de caption mét persoonlijkheid veel aantrekkelijker vonden dan die zonder.