AI van IBM maakt nieuwe sets aan gelabelde beelden met semantische content

Wetenschappers van IBM, de Tel Aviv University en Technion beschrijven in een paper een nieuw model-ontwerp voor kunstmatige intelligentie (AI) dat ontworpen is om nieuwe sets aan gelabelde beelden te maken, aan de hand van eerdere gelabelde beelden. Het model draagt de naam Label-Set Operations (LaSO) networks. 

Het model kan paren van gelabelde afbeeldingen combineren – bijvoorbeeld een foto van een hond met de annotatie ‘hond’ en een foto van een schaap met de annotatie ‘schaap’ – om nieuwe voorbeelden te maken die de labels van de eerste afbeeldingen gebruiken. Denk hierbij bijvoorbeeld aan een enkele foto van een hond en een schaap, met de annotaties ‘hond’ en ‘schaap’. de LaSO networks kunnen volgens de onderzoekers in de toekomst gebruikt worden om sets die te weinig data uit de echte wereld bevatten aan te vullen, schrijft Venturebeat.

LaSO networks leren om label sets van monsters te manipuleren en nieuwe te ontwikkelen die overeenkomen met gecombineerde label sets, door foto’s van verschillende types als input te gebruiken en gedeelde semantische content te identificeren. Pas daarna worden echt concepten in een monster die ook in een ander monster voorkomen verwijderd.

Categorieën

Het AI-model werkt direct op beeldrepresentaties en heeft geen extra input nodig voor de manipulaties. Daardoor is het in staat om te generaliseren naar afbeeldingen die categorieën bevatten die tijdens de training niet werden gezien.

Dit is belangrijk, omdat er bij few-shot learning – waarbij een AI-model erg weinig trainingsdata krijgt – er vaak weinig of slechts één monster per categorie aanwezig is. De meeste aanpakken bij beeldclassificatie omvatten slechts enkele labels, waarbij iedere trainingsafbeelding een enkel object bevat met een overeenkomend label. In de paper onderzoeken de wetenschappers echter multi-label few-shot learning, waarbij trainingsafbeeldingen meerdere objecten bevatten uit verschillende categorielabels.

De onderzoekers trainden meerdere LaSO networks als een enkel multi-taks-netwerk, op basis van een set met meerdere labels per afbeelding die toebehoren aan de objecten op die foto. Vervolgesn evalueerden ze hoe goed het netwerk de output-voorbeelden kon classificeren, door een classifier te gebruiken die vooraf getraind was op multi-label data. In een apart experiment gebruikte het team de netwerken om extra voorbeelden te maken vanuit willekeurige paren van de weinige trainingsvoorbeelden, en ontwierp het team een nieuwe benchmark voor multi-label few-shot classification.