AI-model vertaalt taal naar fysieke bewegingen

Onderzoekers van Carnegie Mellon University hebben een kunstmatige intelligentie (AI)-agent gemaakt, die woorden kan vertalen naar fysieke bewegingen. Dit kan uiteindelijk mogelijk helpen om robots fysieke taken uit te laten voeren, of bij het animeren van virtuele karakters.

De AI-agent heeft Joint Language-to-Pose, of JL2P. De aanpak combineert natuurlijke taal met 3D-poseermodellen, schrijft Venturebeat. JL2P is getraind met end-to-end curriculum learning, een aanpak die de nadruk legt op kortere opeenvolgingen van taken, voordat er over wordt gegaan op moeilijkere doelstellingen.

“We optimaliseren het model eerst om twee stappen te voorspellen op basis van de volledige zin”, aldus de onderzoekers. “Deze eenvoudige taak helpt het model om hele korte opeenvolgingen uit te voeren, zoals beenbewegingen voor lopen en handbewegingen voor zwaaien.”

“Zodra het verlies op de validatieset begint toe te nemen, gaan we door naar de volgende fase. Nu krijgt het model tweemaal het aantal poses voor de voorspelling.”

Stick figures

JL2P is getraind aan de hand van de KIT Motion-Language Dataset Deze dataset werd in 2016 geïntroduceerd door de High Performance Humanoid Technologies in Duitsland. De dataset combineert menselijke bewegingen met beschrijvingen in natuurlijke taal. In totaal is elf uur aan opgenomen menselijke bewegingen in kaart gebracht, met ruim 6.200 Engelse zinnen van ongeveer acht woorden.

Op dit moment zijn de animaties van JL2P slechts stick figures. In de toekomst kunnen ze mogelijk echter gebruikt worden om mensachtige robots te trainen. JL2P kan zijn animaties laten lopen of rennen, muziekinstrumenten laten bespelen en instructies over richting (links of rechts) laten volgen.

Andere projecten

Het is overigens niet voor het eerst dat dergelijke AI’s ontwikkeld worden. In 2018 werd nog een AI voorgesteld door SRI International-onderzoekers. Volgens de makers van JL2P heeft hun model een verbetering van 9 procent voor de menselijke bewegingen.

Daarnaast heeft Microsoft een project genaamd ObjGAN, dat plaatjes en storyboards schetst aan de hand van titels. Disney gebruikt een AI dat woorden in een script gebruikt om storyboards te maken, en GauGAN van Nvidia laat gebruikers landschappen schilderen aan de hand van kwasten met namen als “bomen”, “berg” of “lucht”.

Keuze van de redactie

AI werkt pas als de infrastructuur klopt

AI staat volop in de schijnwerpers, maar zonder een robuuste infrastr...

Insight: IT in Healthcare

Lees meer over Analytics

Top story

Achter de schermen van de Formule E strijdt TCS digitaal mee

De wereld van de Formule E is er een van technologie en snelheid, maar ook duurzaamheid. Precies die combinat...

Erik van Klinken 27 juni 2025

Tech calendar

AI-model vertaalt taal naar fysieke bewegingen

Stick figures

Andere projecten

Blijf op de hoogte, abonneer!

Info Support doorbreekt legacy-impasse met AI

AI werkt pas als de infrastructuur klopt

Kinderen met autisme maanden eerder behandeld dankzij process automation

Primeur: Nvidia-supercomputer in Nederland voor zorg-AI Juvoly

ChatGPT is een slechte dokter, maar dat zou niemand moeten verbazen

AI-scanner spoort huidkanker vliegensvlug op

GITEX DIGI_HEALTH 5.0 - Thailand

IT Arena

Innovation Week 2025

Luxembourg Venture Days

Appdevcon

Webdevcon

Verbeter je digitale ervaringen met de Cisco AI Assistant

Ervaar gratis Synology’s nieuwste enterprise backup-oplossing

Versnel je AI-succes met NVIDIA AI Computing van HPE

Versterk je cybersecurity met DNS best practices