AI van LinkedIn genereert automatisch fotobeschrijvingen

Alternatieve beschrijvingen van foto’s – ook wel alt-teksten genoemd – zijn van groot belang voor mensen die beelden niet kunnen zien. De teksten beschrijven wat er op foto’s getoond wordt, zodat ook iemand met beperkt zicht en ondersteunende technologie om een computer te gebruiken een idee krijgt van het beeld. Een nieuwe kunstmatige intelligentie (AI) van LinkedIn kan die teksten automatisch genereren. 

Op dit moment kunnen gebruikers van LinkedIn met de hand alternatieve beschrijvingen toevoegen als ze een afbeelding uploaden, schrijven Vipin Gupta, Ananth Sankar en Jyotsna Thapliyal van het zakelijk netwerk in een blogbericht. “Maar niet alle leden kiezen ervoor om hier gebruik van te maken.”

“Om de toegankelijkheid van de website te verbeteren, is ons team begonnen met het ontwikkelen van een tool die alternatieve beschrijvingen suggereert voor afbeeldingen die geüpload worden naar LinkedIn.” 

Een uitdaging hierbij is dat er geen “goede” beschrijving is voor een afbeelding, benadrukt Venturebeat. De beschrijving is altijd subjectief, wat betekent dat er kennis over verschillende fysieke objecten en hun attributen nodig is om een goede beschrijving van een afbeelding te genereren. 

Analyze API

Het team gebruikt nu Analyze API van Microsoft’s Cognitive Services. Dat is een API die alternatieve beschrijvingen voor beelden kan genereren. De beschrijving is gebaseerd op een collectie van tags voor content, en er kan meer dan één beschrijving gemaakt worden voor een afbeelding. 

Alle beschrijvingen worden vervolgens ingedeeld op basis van hun vertrouwensscore. Die score is gebaseerd op de alternatieve beschrijvingen, categorieën en tags. Daarna zet LinkedIn mensen in die zelf ook labels schrijven voor afbeeldingen. 

De labels van die mensen worden naast de scores die de Analyze API behaalde gelegd. Op basis daarvan wordt beoordeeld hoe goed de gegenereerde tekst is. 

Moeite met zakelijke context

De Analyze API van Microsoft blijkt er goed te zijn om objecten als kranten, grote groepen mensen en metro’s te herkennen. Maar het had in eerste instantie wel moeite met beelden in een zakelijke context, zoals dia’s uit een presentatie en grafieken. 

Het team besloot daarom om de accuraatheid van bestaande alternatieve beschrijvingen op LinkedIn te evalueren. Daardoor werden patronen zichtbaar die specifiek zijn voor de kwaliteit van de bijschriften van afbeeldingen. Die patronen kunnen vervolgens ingezet worden om de gegenereerde teksten te verbeteren.

Het team maakte vervolgens een systeem dat beschrijvingen wegfiltert die de ervaring van LinkedIn-gebruikers ‘negatief beïnvloeden’. Daarnaast werd een module ontwikkeld die verkeerde beschrijvingen identificeert en aanpast. Zo worden woorden als ‘screenshot’ weggehaald.