AI van DeepMind kan realistische video’s genereren aan de hand van YouTube-video’s

Stay tuned, abonneer!

DeepMind, een zusterbedrijf van Google, heeft een paper geschreven waarin het een kunstmatige intelligentie (AI) beschrijft die realistische video’s kan genereren aan de hand van YouTube-video’s.

De AI – Dual Video Discriminator GAN (DVD-GAN) – kan coherente video’s van 256 bij 256 pixels maken, met een “opmerkelijke betrouwbaarheid” en een lengte van maximaal 48 frames, schrijft Venturebeat.

“Het genereren van natuurlijke video is een voor de hand liggende volgende uitdaging, maar wel een die geplaagd wordt door groeiende data-complexiteit en computational eisen”, aldus de auteurs van de paper.

Volgens hen draaide veel eerder werk voor het genereren van video’s daarom vooral om relatief eenvoudige datasets, of om taken waarbij sterke tijdsconditionering beschikbaar is. “Wij richten ons op de taken van videosynthese en videovoorspelling, en hebben als doel om de sterke resultaten van generatieve beeldmodellering naar het videodomein te brengen.”

GAN’s

Specifiek gebruikten de onderzoekers GAN’s, wat tweedelige AI-systemen zijn die bestaan uit generators die monsters produceren, en discriminators die proberen het onderscheid te maken tussen de gegenereerde monsters en monsters uit de echte wereld. De onderzoekers gebruikten vooral BigGAN’s, die zich onderscheiden door de grote hoeveelheden en miljoenen parameters die ze gebruiken.

DVD-GAN gebruikt twee discriminators. Allereerst is er een discriminator die de content en structuur van een enkel frame bekritiseerd, door willekeurig frames te pakken en ze individueel te verwerken. De tweede discriminator biedt een leersignaal om bewegingen te genereren. Tot slot is er een Transformer, die geleerde informatie toestaat om door het gehele AI-model te verspreiden.

Kinetics-600

DVD-GAN werd vervolgens getraind op Kinetics-600, een dataset van natuurlijke video’s. De dataset is samengesteld vanuit 500.000 YouTube-clips van 10 seconden en met een hoge resolutie. Die dataset werd in eerste instantie opgesteld om menselijke acties te herkennen. Volgens de onderzoekers is de dataset divers en “ongedwongen”. Daardoor moeten zorgen voor overfitting weggenomen worden. Overfitting refereert naar modellen die te dicht op een specifieke dataset corresponderen, waardoor ze toekomstige observaties niet goed kunnen voorspellen.

DVD-GAN werd uiteindelijk tussen 12 en 96 uur getraind op de Tensor Processing Units van Google. Daarna kon de AI video’s maken met object-compositie, beweging en zelfs gecompliceerde texturen als de zijkant van een ijsbaan.