4min

Generatieve AI heeft de techwereld het laatste jaar gedomineerd. Kritiek op deze vorm van AI is er genoeg, maar enkel de vraagtekens rondom auteursrechten vormen een existentiële crisis voor de technologie in huidige vorm.

Op de valreep van 2023 spande The New York Times (NYT) een rechtszaak aan tegen OpenAI en diens geldschieter Microsoft. De aantijging: ChatGPT was ontwikkeld door inbreuk te doen op de auteursrechtelijke bescherming van artikelen geproduceerd door NYT.

Een belangrijk bewijsstuk hiervoor was dat de chatbot desgevraagd de inhoud van nieuwsartikelen kon reproduceren. NYT overwoog een deal om achteraf een licentie te verkopen aan OpenAI voor het eigen archief, maar de onderhandelingen liepen niet zoals gehoopt. Nu staan beide partijen lijnrecht tegenover elkaar. Microsoft, dat uitbundig gebruikmaakt van OpenAI-technologie binnen het eigen portfolio, moet eveneens naar de rechter.

Fair use-verdediging

Miljoenen NYT-artikelen zouden deel hebben uitgemaakt van de reusachtige dataset om modellen als GPT-3, GPT-3.5 en GPT-4 te trainen. Hoewel ChatGPT gratis te gebruiken is, wist OpenAI een jaaromzet van 1,3 miljard dollar te draaien door deze AI-modellen te commercialiseren. The New York Times is niet op zoek naar een specifiek geldbedrag, maar het feit dat Gen AI klaarblijkelijk zoveel geld op kan leveren, is van cruciaal belang.

Waarom? OpenAI verdedigt zich namelijk met de stelling dat het trainen van AI-modellen onder ‘fair use’ valt. Talloze instanties en autoriteiten zouden dit onderschrijven. Daarnaast is er een opt-out voor uitgevers door GPTBot te blokkeren, de scraping-tool van OpenAI die trainingsdata van het web verzamelt. ‘Fair use’ is een losse term die voor doeleinden als kritiek, onderzoek en rapportage ruimte biedt. Zo kan een recensie passages of fragmenten uit een boek, film of andere soort media delen om een punt te maken.

Dat is niet hoe OpenAI ‘fair use’ gebruikt. Het bedrijf impliceert dat elk openbaar toegankelijk werk voor trainingsdoeleinden geschikt is. Omdat de technologie de trainingsgegevens omzet naar nieuwe data, vervangt een AI-toepassing het oorspronkelijke werk niet. Als er wel een keer oorspronkelijk werk één-op-één wordt overgenomen, wordt dat door OpenAI geclassificeerd als een bug.

Het is een zeer ruime interpretatie van ‘fair use’. Aangezien OpenAI al licenties heeft ingekocht voor het gebruik van The Associated Press-archieven en Axel Springer-content, is het niet aannemelijk dat het bedrijf er zelf in gelooft. Het lijkt er eerder op dat het uit juridische overwegingen dit argument voert. De opt-out werd overigens pas maanden na de introductie van GPT-4 onthuld. De aankondiging was weggestopt in een API-subpagina, dus het is niet alsof OpenAI maar wat graag de mogelijkheid wilde delen met uitgevers.

Vervanging van het originele werk?

The New York Times is niet de enige partij die juridische actie tegen onder meer OpenAI heeft ondernomen. Een class-action zaak (gesteund door o.a. cabaretier Sarah Silverman) loopt al sinds juli 2023, terwijl een tweetal auteurs een paar dagen geleden ook naar de rechter zijn gestapt om net als NYT OpenAI en Microsoft van auteursrechtenschending te betichten.

Een belangrijk argument van NYT is dat OpenAI met behulp van de ongelicenseerde content zelf kan concurreren om de nieuwsvoorziening. ChatGPT Plus zoekt weliswaar via Bing naar bronnen en haalt daar informatie uit, maar de vaardigheid om dit te vertalen naar zinnig geformuleerde inhoud hangt sterk van de trainingsdata af. NYT zou daarmee ook ongewild een AI-zoekmachine als Microsoft Copilot (voorheen Bing Chat) voorzien van hoogwaardige achtergrondinformatie.

Een rechterlijke beslissing zou hierin enorm invloedrijk kunnen zijn. Als OpenAI voortaan gedwongen wordt om inhoud te licenseren, betekent het waarschijnlijk dat het een aanzienlijk deel van de winst verdwijnt. Immers zou het momenteel slechts tussen de 1 en 5 miljoen aan uitgevers bieden, gedeeltelijk omdat OpenAI vindt dat het überhaupt al gebruik mocht maken van deze inhoud.

Grotere gevolgen

OpenAI stelt dat generatieve AI niet zonder auteursrechtengebonden materiaal kan functioneren. Zoals de technologie momenteel functioneert, lijkt dat zeker het geval. Alle AI-applicaties die zich immers op OpenAI-technologie baseren, rusten op de trainingsdata die dat bedrijf heeft verzameld. Er is geen GPT-model waarvoor dat niet geldt.

Er valt te beargumenteren dat Gen AI in de huidige vorm dan ook onwenselijk is. Het achteraf laten goedkeuren van wat in essentie IP-diefstal kan zijn, is geen houdbaar model. Ook is de ondoorzichtigheid van de trainingsdata zo groot dat auteurs niet eens zomaar kunnen weten of men in aanmerking zou komen voor compensatie. Regels rondom AI-transparantie en het beschermen van auteursrechten worden al volop ontwikkeld. De EU komt met de AI Act, dat partijen als OpenAI, Microsoft en Google naar verwachting stevig zal inperken op dit gebied.

Mocht OpenAI gedwongen zijn om trainingsdata te licenseren, dan heeft dat niet per se alleen maar positieve gevolgen. OpenAI-technologie geldt als de state-of-the-art in vergelijking met de concurrentie, of dat nu Google of open-source is. Die vooruitgang inperken, betekent ook dat de transformatieve kracht van Gen AI aan banden gelegd wordt. Dat is een keuze die niet alleen door een rechter gemaakt moet worden.

Toch geldt vooral dat duidelijkheid nodig is. De ondoorzichtige datasets en het onvoorspelbare gedrag van Gen AI zijn niet houdbaar voor een commerciële inzet. Bedrijven dienen te weten welke informatie voor AI-training wordt verzameld en waarop gebruikte modellen zich baseren. Duidelijke regelgeving vanuit de EU, VS en andere instanties kan hierin doorslaggevend zijn, zodat de financiële voordelen van AI bij alle betrokken partijen zichtbaar worden. Welke prijs OpenAI dient te betalen aan die partijen, zal daar zonder meer door beïnvloed worden.

Beluister ook onze podcast-aflevering over de inzet van generatieve AI in de journalistiek: