AI van DeepMind kan realistische video’s genereren aan de hand van YouTube-video’s

DeepMind, een zusterbedrijf van Google, heeft een paper geschreven waarin het een kunstmatige intelligentie (AI) beschrijft die realistische video’s kan genereren aan de hand van YouTube-video’s.

De AI – Dual Video Discriminator GAN (DVD-GAN) – kan coherente video’s van 256 bij 256 pixels maken, met een “opmerkelijke betrouwbaarheid” en een lengte van maximaal 48 frames, schrijft Venturebeat.

“Het genereren van natuurlijke video is een voor de hand liggende volgende uitdaging, maar wel een die geplaagd wordt door groeiende data-complexiteit en computational eisen”, aldus de auteurs van de paper.

Volgens hen draaide veel eerder werk voor het genereren van video’s daarom vooral om relatief eenvoudige datasets, of om taken waarbij sterke tijdsconditionering beschikbaar is. “Wij richten ons op de taken van videosynthese en videovoorspelling, en hebben als doel om de sterke resultaten van generatieve beeldmodellering naar het videodomein te brengen.”

GAN’s

Specifiek gebruikten de onderzoekers GAN’s, wat tweedelige AI-systemen zijn die bestaan uit generators die monsters produceren, en discriminators die proberen het onderscheid te maken tussen de gegenereerde monsters en monsters uit de echte wereld. De onderzoekers gebruikten vooral BigGAN’s, die zich onderscheiden door de grote hoeveelheden en miljoenen parameters die ze gebruiken.

DVD-GAN gebruikt twee discriminators. Allereerst is er een discriminator die de content en structuur van een enkel frame bekritiseerd, door willekeurig frames te pakken en ze individueel te verwerken. De tweede discriminator biedt een leersignaal om bewegingen te genereren. Tot slot is er een Transformer, die geleerde informatie toestaat om door het gehele AI-model te verspreiden.

Kinetics-600

DVD-GAN werd vervolgens getraind op Kinetics-600, een dataset van natuurlijke video’s. De dataset is samengesteld vanuit 500.000 YouTube-clips van 10 seconden en met een hoge resolutie. Die dataset werd in eerste instantie opgesteld om menselijke acties te herkennen. Volgens de onderzoekers is de dataset divers en “ongedwongen”. Daardoor moeten zorgen voor overfitting weggenomen worden. Overfitting refereert naar modellen die te dicht op een specifieke dataset corresponderen, waardoor ze toekomstige observaties niet goed kunnen voorspellen.

DVD-GAN werd uiteindelijk tussen 12 en 96 uur getraind op de Tensor Processing Units van Google. Daarna kon de AI video’s maken met object-compositie, beweging en zelfs gecompliceerde texturen als de zijkant van een ijsbaan.

Keuze van de redactie

Insight: Storage

Lees meer over Analytics

Top story

Cognizant en Google Cloud slaan brug tussen AI-visie en praktijk met AI-lab

Cognizant heeft in samenwerking met Google Cloud een AI-lab ontwikkeld in Amsterdam. Bart Moens (Solutions Sp...

Coen van Eenbergen 7 juli 2025

Tech calendar

AI van DeepMind kan realistische video’s genereren aan de hand van YouTube-video’s

GAN’s

Kinetics-600

Blijf op de hoogte, abonneer!

Nvidia bereikt als eerste mijlpaal van 4 biljoen dollar marktwaarde

De AI-golf dwingt organisaties hun infrastructuur te herzien

Cognizant en Google Cloud slaan brug tussen AI-visie en praktijk met AI-lab

Het is World Backup Day, maar alleen back-ups zijn niet genoeg

NetApp vernieuwt AFF A-serie: all-flash voor AI-workloads krijgt boost

Fidelma Russo: “HPE bouwt en koopt wat klanten nodig hebben binnen onze stack”

Krijg Volledig Inzicht van Gebruiker tot Cloud met Cisco ThousandEyes

GITEX DIGI_HEALTH 5.0 - Thailand

IT Arena

Innovation Week 2025

Luxembourg Venture Days

Appdevcon

Verbeter je digitale ervaringen met de Cisco AI Assistant

Ervaar gratis Synology’s nieuwste enterprise backup-oplossing

Versnel je AI-succes met NVIDIA AI Computing van HPE

Versterk je cybersecurity met DNS best practices