OpenAI trainde GPT-4 op miljoenen uren aan audio van YouTube-video’s

OpenAI heeft GPT-4 getraind op een miljoen uur aan audio van YouTube-video’s. De AI-gigant vroeg hiervoor geen toestemming van Google. Die laatste maakte echter geen bezwaar omdat het zelf ook YouTube gebruikt voor het trainen van zijn eigen LLM’s.

In 2021 had OpenAI een gebrek aan online beschikbare, betrouwbare Engelstalige data voor het trainen van zijn destijds nieuwste LLM, GPT-4. OpenAI besloot daarop nieuwe databronnen aan te boren, in het bijzonder YouTube-video’s, schrijft The New York Times.

OpenAI ontwikkelde hiervoor zijn audiotranscriptiemodel Whisper voor het scrapen van ongeveer een miljoen uur aan audio van YouTube-video’s. Deze tekstgebaseerde data werd vervolgens in GPT-4 geladen om het LLM te trainen.

Scrapen was ‘fair use’

Het team van OpenAI voor deze specifieke dataverzameling uit YouTube-video’s bestond onder meer uit Greg Brockman, medeoprichter en president van de AI-bedrijf. Hoewel verschillende medewerkers bezwaar toonden tegen deze ‘illegale’ vorm van dataverzameling, ging het team toch door.

Als excuus gaf OpenAI dat, ondanks dat het scrapen van YouTube-video’s tegen de copyright- en gebruiksvoorwaarden van Google inging, het toch ‘fair use’ was en daarmee toegestaan, aldus bronnen tegenover de Amerikaanse krant.

Geen bezwaar van Google

Google zelf heeft opmerkelijk geen bezwaar gemaakt tegen het gebruik van YouTube voor het trainen van GPT-4. Dit hoewel het onlangs wel aangaf dat het gebruik van YouTube-video’s voor het trainen van het AI-videomodel Sora zeer zeker in strijd zou zijn met de gebruiksvoorwaarden van de videodienst.

Tip: Onduidelijkheid over trainingsdata Sora-model voor genereren video’s

Volgens de New York Times komt dit doordat de techgigant ook zelf data van YouTube gebruikt voor het trainen van zijn eigen modellen. Google zou recent zelfs de gebruiksvoorwaarden van verschillende diensten hebben opgerekt, waardoor het toegang tot publiek materiaal zou hebben voor het trainen van zijn eigen LLM’s. Denk hierbij aan openbare documenten in Google Docs, recensies van restaurants op Google Maps en bijvoorbeeld YouTube-video’s.

Race naar nieuwe databronnen

Het scrapen van YouTube-video’s voor het trainen van LLM’s toont aan dat de grote AI-aanbieders drastisch op zoek zjjn naar nieuwe trainingsdata en daarvoor steeds creatiever te werk gaan. Zo zou Meta hebben overwogen de grote Amerikaanse uitgeverij Simon & Schuster over te nemen voor het verkrijgen van data uit diens portfolio en zou het bedrijf ook overal op internet copyrighted data verzamelen, ook al kan dit tot rechtszaken leiden.

Google zelf heeft verder een deal gesloten met Reddit voor het gebruik van de content op diens platform voor het trainen van zijn AI-modellen.

Lees ook: Google betaalt via AI-deal jaarlijks 60 miljoen dollar voor content op Reddit

Keuze van de redactie

Insight: IT in Retail

Lees meer over Analytics

Top story

Cognizant en Google Cloud slaan brug tussen AI-visie en praktijk met AI-lab

Cognizant heeft in samenwerking met Google Cloud een AI-lab ontwikkeld in Amsterdam. Bart Moens (Solutions Sp...

Coen van Eenbergen 7 juli 2025

Whitepapers

OpenAI trainde GPT-4 op miljoenen uren aan audio van YouTube-video’s

Scrapen was ‘fair use’

Geen bezwaar van Google

Race naar nieuwe databronnen

Blijf op de hoogte, abonneer!

ASML-keten trekt massaal naar Zuidoost-Azië: voorteken?

KnowBe4 gaat van security training naar human risk management

Vijf redenen waarom AI in je ERP-systeem onmisbaar is voor duurzame retailorganisatie

Aanbieder van e-commerceoplossingen zet eigen portfolio in de etalage

Manhattan Associates levert supply chain-software, is het meer dan een fancy naam?

Sligro-CISO gebruikt NIST-framework om met management te communiceren

Is jouw endpointbeveiliging op orde?

Hoe maak je duurzaamheid echt praktisch?

Verbeter je digitale ervaringen met de Cisco AI Assistant

Ervaar gratis Synology’s nieuwste enterprise backup-oplossing

Krijg Volledig Inzicht van Gebruiker tot Cloud met Cisco ThousandEyes

GITEX DIGI_HEALTH 5.0 - Thailand

IT Arena

Innovation Week 2025

Luxembourg Venture Days

Appdevcon