2min

OpenAI heeft GPT-4 getraind op een miljoen uur aan audio van YouTube-video’s. De AI-gigant vroeg hiervoor geen toestemming van Google. Die laatste maakte echter geen bezwaar omdat het zelf ook YouTube gebruikt voor het trainen van zijn eigen LLM’s.

In 2021 had OpenAI een gebrek aan online beschikbare, betrouwbare Engelstalige data voor het trainen van zijn destijds nieuwste LLM, GPT-4. OpenAI besloot daarop nieuwe databronnen aan te boren, in het bijzonder YouTube-video’s, schrijft The New York Times.

OpenAI ontwikkelde hiervoor zijn audiotranscriptiemodel Whisper voor het scrapen van ongeveer een miljoen uur aan audio van YouTube-video’s. Deze tekstgebaseerde data werd vervolgens in GPT-4 geladen om het LLM te trainen.

Scrapen was ‘fair use’

Het team van OpenAI voor deze specifieke dataverzameling uit YouTube-video’s bestond onder meer uit Greg Brockman, medeoprichter en president van de AI-bedrijf. Hoewel verschillende medewerkers bezwaar toonden tegen deze ‘illegale’ vorm van dataverzameling, ging het team toch door.

Als excuus gaf OpenAI dat, ondanks dat het scrapen van YouTube-video’s tegen de copyright- en gebruiksvoorwaarden van Google inging, het toch ‘fair use’ was en daarmee toegestaan, aldus bronnen tegenover de Amerikaanse krant.

Geen bezwaar van Google

Google zelf heeft opmerkelijk geen bezwaar gemaakt tegen het gebruik van YouTube voor het trainen van GPT-4. Dit hoewel het onlangs wel aangaf dat het gebruik van YouTube-video’s voor het trainen van het AI-videomodel Sora zeer zeker in strijd zou zijn met de gebruiksvoorwaarden van de videodienst.

Tip: Onduidelijkheid over trainingsdata Sora-model voor genereren video’s

Volgens de New York Times komt dit doordat de techgigant ook zelf data van YouTube gebruikt voor het trainen van zijn eigen modellen. Google zou recent zelfs de gebruiksvoorwaarden van verschillende diensten hebben opgerekt, waardoor het toegang tot publiek materiaal zou hebben voor het trainen van zijn eigen LLM’s. Denk hierbij aan openbare documenten in Google Docs, recensies van restaurants op Google Maps en bijvoorbeeld YouTube-video’s.

Race naar nieuwe databronnen

Het scrapen van YouTube-video’s voor het trainen van LLM’s toont aan dat de grote AI-aanbieders drastisch op zoek zjjn naar nieuwe trainingsdata en daarvoor steeds creatiever te werk gaan. Zo zou Meta hebben overwogen de grote Amerikaanse uitgeverij Simon & Schuster over te nemen voor het verkrijgen van data uit diens portfolio en zou het bedrijf ook overal op internet copyrighted data verzamelen, ook al kan dit tot rechtszaken leiden.

Google zelf heeft verder een deal gesloten met Reddit voor het gebruik van de content op diens platform voor het trainen van zijn AI-modellen.

Lees ook: Google betaalt via AI-deal jaarlijks 60 miljoen dollar voor content op Reddit