Nvidia maakt het trainen van robots om spullen op te pakken eenvoudiger

Abonneer je gratis op Techzine!

Het is voor robots nog altijd ingewikkeld om om te gaan met objecten die opeens op een andere plek liggen dan normaal. Een team van onderzoekers van Nvidia heeft echter een manier gevonden om het gemakkelijker te maken om robots te trainen om die spullen wel te vinden, meldt ZDNet.

Een robot heeft een algoritme nodig voor computer vision om een object in de echte wereld te vinden en op te pakken, ook als deze op een andere plek ligt dan normaal gesproken. Dat algoritme moet de 3D-positie en de oriëntatie van een object kunnen identificeren. Dit heet de 6-DoF (degrees of freedom)-positie.

Algoritme

Het nieuwe algoritme van Nvidia moet dit eenvoudiger maken. Het algoritme werd getraind met synthetische beelden, waardoor het complexe en werkintensieve proces om foto’s voor de training voor te bereiden wordt omzeild. En door een unieke combinatie van synthetische beelden te gebruiken, heeft het team een algoritme kunnen trainen dat het beter doet dan een netwerk dat getraind is met echte beelden. Dat is voor het eerst.

“Met synthetische data kunnen we bijna een oneindig aantal beelden met labels genereren die in principe gratis zijn”, aldus Stan Brichfield, een robotonderzoeker bij Nvidia. “Wat we uiteindelijk proberen te doen, is het mogelijk maken om een robot een nieuwe taak aan te leren in een korte tijdspanne.” Daardoor moeten robots mensen in diverse plekken kunnen helpen, bijvoorbeeld in fabrieken, ziekenhuizen of thuis.

Het team kan nu een standaard RGB-camera op een robot zetten en het algoritme gebruiken om een robot in staat te stellen om beelden te zien, op te pakken en te verplaatsen. Het netwerk werd getraind aan de hand van Nvidia Tesla V100 GPU’s op een DGX Station met de cuDNN-versnelde PyTorch. Ook gebruikten ze een eigen plug-in ontworpen door Nvidia voor de Unreal Engine om de synthetische data te genereren.

Synthetische data

In het verleden was synthetische data niet goed genoeg om een computer vision-algoritme te trainen, omdat de gegenereerde beelden niet echt genoeg leken. “Tot voor kort was het de trend om te proberen beelden te produceren die er steeds realistischer uitzagen”, aldus Birchfield.

“Het probleem dat onderzoekers ontdekten was dat als ze beelden realistischer wilden maken, ze artiesten moesten inhuren en veel tijd moesten besteden aan het maken van scènes die op de echte wereld leken. Daardoor was er minder variëteit. Je kon een specifieke kamer namaken, maar niet meerdere.” Hoe meer variëteit er is, hoe beter het algoritme getraind wordt.