AI-model vertaalt taal naar fysieke bewegingen

Onderzoekers van Carnegie Mellon University hebben een kunstmatige intelligentie (AI)-agent gemaakt, die woorden kan vertalen naar fysieke bewegingen. Dit kan uiteindelijk mogelijk helpen om robots fysieke taken uit te laten voeren, of bij het animeren van virtuele karakters.

De AI-agent heeft Joint Language-to-Pose, of JL2P. De aanpak combineert natuurlijke taal met 3D-poseermodellen, schrijft Venturebeat. JL2P is getraind met end-to-end curriculum learning, een aanpak die de nadruk legt op kortere opeenvolgingen van taken, voordat er over wordt gegaan op moeilijkere doelstellingen.

“We optimaliseren het model eerst om twee stappen te voorspellen op basis van de volledige zin”, aldus de onderzoekers. “Deze eenvoudige taak helpt het model om hele korte opeenvolgingen uit te voeren, zoals beenbewegingen voor lopen en handbewegingen voor zwaaien.”

“Zodra het verlies op de validatieset begint toe te nemen, gaan we door naar de volgende fase. Nu krijgt het model tweemaal het aantal poses voor de voorspelling.”

Stick figures

JL2P is getraind aan de hand van de KIT Motion-Language Dataset Deze dataset werd in 2016 geïntroduceerd door de High Performance Humanoid Technologies in Duitsland. De dataset combineert menselijke bewegingen met beschrijvingen in natuurlijke taal. In totaal is elf uur aan opgenomen menselijke bewegingen in kaart gebracht, met ruim 6.200 Engelse zinnen van ongeveer acht woorden.

Op dit moment zijn de animaties van JL2P slechts stick figures. In de toekomst kunnen ze mogelijk echter gebruikt worden om mensachtige robots te trainen. JL2P kan zijn animaties laten lopen of rennen, muziekinstrumenten laten bespelen en instructies over richting (links of rechts) laten volgen.

Andere projecten

Het is overigens niet voor het eerst dat dergelijke AI’s ontwikkeld worden. In 2018 werd nog een AI voorgesteld door SRI International-onderzoekers. Volgens de makers van JL2P heeft hun model een verbetering van 9 procent voor de menselijke bewegingen.

Daarnaast heeft Microsoft een project genaamd ObjGAN, dat plaatjes en storyboards schetst aan de hand van titels. Disney gebruikt een AI dat woorden in een script gebruikt om storyboards te maken, en GauGAN van Nvidia laat gebruikers landschappen schilderen aan de hand van kwasten met namen als “bomen”, “berg” of “lucht”.