OpenAI heeft dankbaar gebruik gemaakt van fora als Reddit om de eigen AI-modellen te trainen. Nu sluit het een overeenkomst met Reddit om officieel samen te werken. Eerder verscheen al een Stack Overflow-deal waar gebruikers allerminst tevreden over waren. Het laat de lucratieve toekomst zien van AI-trainingsdata.
Reddit wil eindelijk winstgevend worden en besloot daarom vorig jaar om de voorheen gratis API te beprijzen. Eén van de argumenten hiervoor was dat AI-bedrijven maar wat graag alle data schraapten (‘scraping’) van het platform, waaronder OpenAI. Zo is ChatGPT deels getraind met Reddit-gegevens, iets waar Reddit zelf destijds geen weet van had.
Nog sterkere integratie dan met Google
Het inmiddels beursgenoteerde Reddit koos voor een koerswijziging richting AI-deals. In februari licenseerde het de eigen content, dat volledig door bezoekers (‘Redditors’) is gegenereerd, aan Google. Het zou ongeveer 60 miljoen dollar per jaar opleveren. Nu is ook OpenAI aan de beurt met zowel een contentdeal als een integratie. Reddit-data mag niet alleen voor AI-training gebruikt worden, Reddit-posts kunnen ook bij ChatGPT-antwoorden verschijnen door een integratie met Reddits Data API.
De overeenkomst tussen Reddit en OpenAI verschilt dus van eerdere contentdeals. OpenAI zelf heeft al aardig wat bedrijven gestrikt om hun data voor training te gebruiken. Vorig jaar was er bijvoorbeeld een overeenkomst met The Associated Press, terwijl dit jaar ook ontwikkelaarsforum Stack Overflow een contract sloot met OpenAI.
Revolte onder gebruikers heeft nagenoeg geen effect
Toen Reddit besloot de API van een prijskaartje te voorzien, ging een groot deel van het social media-platform op zwart. Door de wijziging zijn third-party alternatieven voor de Reddit-app niet meer financieel haalbaar, zoals Apollo, Reddit Is Fun en Relay. Daar waar de ene app voor een prijzige abonnementsdienst koos, besloot de ander simpelweg op te doeken.
Reddit heeft zich er niks van aangetrokken. Fervente gebruikers, die benadrukten dat zíj de motor achter het succes van Reddit zijn geweest door content te genereren, kregen op geen enkele manier hun zin. Wel paaide de bedrijfstop hun gebruikers door ze uit te nodigen zich vroeg te verzekeren van Reddit-aandelen bij de beursgang. Daar bleef het verder bij.
We twijfelden over het succes van Reddit op de beurs, maar dit lijkt voorlopig een misvatting te zijn geweest. De AI-deals geven het bedrijf namelijk een aanzienlijke boost. Je kunt twijfelen over de duurzaamheid hiervan (er zijn immers niet zóveel grote AI-spelers). Toch is de IPO lucratief geweest door de waardestijging bovenop de inkomsten vanuit de deals zelf. Daarnaast betaalt Google elk jaar opnieuw, terwijl OpenAI dat mogelijk ook doet.
Platformwijziging
Reddit kan rusten op bijna twee decennia aan user-generated content. Talloze discussies over elk onderwerp onder de zon informeren ChatGPT te pas en te onpas over hoe internetgebruikers naar de wereld kijken en keken. De accuratesse van die inhoud zal alsnog door OpenAI zelf gecheckt moeten worden, maar het bedrijf laat derden tegenwoordig niet op die manier onder de motorkap kijken.
De informatie vanuit Stack Overflow is wellicht eenvoudiger te benutten. Immers is dat ontwikkelforum specifiek gericht op het beantwoorden van vragen van developers, waarbij de beste antwoorden op democratische wijze naar boven drijven. In tegenstelling tot Reddit is de drijfveer voor hooggewaardeerde posts een stuk nauwer verbonden met wat een goed antwoord is, niet of het komisch, interessant of anderszins merkwaardig is.
Stack Overflow-gebruikers gingen echter ook in opstand tegen het door hen gebruikte platform. Waarom AI laten profiteren van jouw kennis als diezelfde AI je op den duur zou kunnen vervangen? Onder programmeurs is AI-codegeneratie een bekende boeman, hoewel nog moet blijken hoe goed GenAI-toepassingen veilige en betrouwbare code genereren, zeker als het een complex probleem betreft.
Stack Overflow-protest
Massaal probeerden Stack Overflow-bezoekers hun oude posts te verwijderen. Dit werd door Stack Overflow beantwoord met weigeringen of zelfs verbanningen van het forum. Het argument: andere developers vonden jouw contributie waardevol, dus we houden het in de lucht of je het nu wilt of niet. De bijvangst is dat de Stack Overflow-archieven zo geschikt mogelijk blijven voor AI-training. Het is overigens maar de vraag of het verwijderen van de posts überhaupt zin had om ze te vrijwaren van AI-gebruik, want een oude snapshot zou intern best aanwezig kunnen zijn met alle antwoorden tot een bepaald moment.
Het is hoe dan ook een terugkerend patroon dat andere fora wellicht ook zullen meemaken als andere bedrijven een deal met Google of OpenAI sluiten. De opstanden blijken echter van een tijdelijke aard of te kleinschalig om iets uit te halen. Hierdoor kunnen Reddit en Stack Overflow zich verzekeren van nieuwe inkomsten door AI-deals. Aangezien de gebruiksvoorwaarden vrijwel altijd stipuleren dat user-generated content niet user-owned content is, is de enige optie om naar een reëel alternatief forum over te stappen. De geschiedenis leert dat bijna niemand dat doet.
Lees ook: Deal tussen Apple en OpenAI bijna rond om ChatGPT te integreren in iOS 18