Google heeft een nieuw AI-model gepresenteerd dat langdurige video’s kan analyseren. Terwijl AI gericht op tekst, beeld en geluid inmiddels commercieel succes heeft behaald, is er nog geen tool die deze gebieden gezamenlijk kan verwerken. Met Mirasol3B denkt Google een aanpak te hebben gevonden die dat wel kan.
AI-ontwikkeling zal door weinigen als eenvoudig worden omschreven, maar inmiddels hebben allerlei toepassingen als ChatGPT, Midjourney en talloze bedrijfsgerichte ML-oplossingen laten zien dat er al veel mogelijk is met de technologie. Ook op audiogebied zijn grote stappen gezet, zoals met synthetische zangstemmen. Echter is ‘multimodaliteit’, zoals het combineren van video, audio en tekstuele inhoud, aanzienlijk lastiger om te analyseren.
Combiners
Volgens Google-onderzoekers Isaac Noble en Anelia Angelova is het gezamenlijk verwerken van de modaliteiten lastig synchroon te houden. Men presenteert daarom Mirasol3B, dat verschillende componenten bevat voor audio en video en deze opdeelt om synchroon te blijven. Daarmee zouden ‘lange video’s’ te analyseren zijn. Men noemt 512 frames als uiterste input, hoewel lang niet elke individuele frame uit een video daadwerkelijk geanalyseerd wordt. Andere AI-modellen gebruiken volgens de onderzoekers slechts 32 tot 64 frames per video, zelfs als deze meerdere minuten duurt. Met Mirasol3B wordt een video in stukken verdeeld van 4 tot 64 frames, die met een synchroon stuk audio worden geanalyseerd. Een ‘learning module’ met de naam ‘Combiner’ verwerkt de gezamenlijke gegevens, waarna het proces zich herhaalt. Echter concentreert elke Combiner-stap na de eerste zich op de veranderingen die hebben plaatsgevonden, zodat duplicate frames niet dezelfde berekeningen vereisen.
Mogelijke toepassingen zijn bijvoorbeeld het toevoegen van video-inhoud in een AI-zoekmachine, het analyseren van user-generated content voor moderatie en QA voor professionele video’s.
Voor Google zelf zal AI-aangedreven contentmoderatie ongetwijfeld aanlokkelijk zijn: het eigen YouTube-platform ontvangt dagelijks honderdduizenden uren aan nieuwe content, dat al grotendeels gemodereerd wordt door algoritmes. False positives kunnen aangevochten worden, net als mensgedreven rapportage van schadelijke of verboden content. Tijdens de coronapandemie was YouTube gedwongen om nog minder mensen in te zetten voor contentmoderatie.
Niet open-source
Hoewel andere ML-experts zoals Leo Tronchon van AI-platform Hugging Face zich positief uitlaatten over de tool, zijn anderen sceptisch. Zo heeft Google ervoor gekozen het model, de trainingsdata en de programmeercode die ervoor nodig is niet verder inzichtelijk te maken. Mirasol3B is dus closed-source en enkel via de Google-blogpost en onderzoekspaper bereikbaar.
Lees ook: AI-model Google voorspelt het weer accurater dan tot nu toe mogelijk