The New York Times beschuldigt OpenAI van auteursrechtenschendingen. Om deze aantijgingen hard te maken, zou de nieuwsorganisatie ChatGPT hebben laten hacken. Een externe partij zou ervoor hebben gezorgd dat de chatbot auteursrechtelijk beschermde informatie reproduceerde. Althans, dat stelt OpenAI. Over die claim is lang niet iedereen het eens.

Dat ChatGPT getraind is op grote delen van het internet, is geen geheim. OpenAI beweert dat de chatbot niet bedoeld is om informatie letterlijk over te nemen. Net als een individu zou ChatGPT kennis verwerven vanuit bronnen als The New York Times, Reddit, Wikipedia en elders. Omdat de AI-antwoorden vrijwel altijd afwijken van auteursrechtelijk beschermd materiaal, ziet OpenAI het gebruik van deze externe informatie als ‘fair use’.

The New York Times (NYT) is het niet met deze definitie eens en spande in december een rechtszaak aan tegen OpenAI en geldschieter Microsoft. Cruciaal daarbij was dat NYT in staat was om de chatbot paragrafen van de eigen artikelen integraal te laten reproduceren, volgens de advocaten van de nieuwsorganisatie een duidelijk bewijs van auteursrechtenschending. Dit bewijs werd echter niet zomaar door de chatbot opgelepeld, stelt OpenAI. Een externe hacker zou “tienduizenden pogingen” hebben gedaan om tot “hoogst uitzonderlijke resultaten” te komen.

OpenAI lijkt prompt engineering als hacking te zien

Volgens OpenAI wist NYT deze resultaten enkel te bemachtigen door een ChatGPT-bug te exploiteren. Misleidende prompts zouden bestaande ‘vangrails’ hebben omzeild die de chatbot weerhoudt van IP-schendingen in outputs. Een goedwillend persoon die zich aan de gebruiksvoorwaarden houdt, zou nooit een output kunnen verwachten die auteursgebonden materiaal klakkeloos voorlegt.

Deze kwestie legt een fundamenteel probleem van LLM’s bloot: ze zijn maar lastig in toom te houden. Daar hebben ze in sommige gevallen niet eens hulp voor nodig. Google zorgde onlangs bijvoorbeeld voor ophef toen het perongeluk nagenoeg altijd mensen met een donkere huidskleur genereerde (ook wanneer dat vanuit een historische context uiterst ongepast was), met alle gevolgen van dien. Ook leverde ChatGPT een week geleden dermate curieuze antwoorden dat de chatbot volgens gebruikers een beroerte leek te hebben gehad.

Zelfs als ze naar behoren werken, geldt prompt engineering als belangrijke tak van sport om gewenste antwoorden te krijgen. Hiermee trachten ontwikkelaars en anderen ervoor te zorgen dat een AI-model bijvoorbeeld outputs nauwkeuriger formuleert of specifiek taalgebruik hanteert. Wie dit op een uitvoerigere manier hoopt te realiseren, komt op den duur terecht bij AI-finetuning, bijvoorbeeld op bedrijfseigen informatie.

Het punt hierbij is dat het om een spectrum gaat: ook het kant-en-klare ChatGPT kan via specifieke prompts tot bepaald gedrag worden verleid. Denk hierbij aan een artikel genereren met een professionele toon of programmeerhulp gericht op efficiëntie. Dergelijke praktijken maken AI-assistenten aanzienlijk nuttiger, waardoor het frappant is om te zien dat OpenAI een soortgelijke aanpak als “hacking” ziet. Uiteindelijk trachtte de (al dan niet aan NYT verbonden) ‘hacker’ simpelweg een antwoord te genereren dat een specifieke wens diende te vervullen.

“Bizarre aantijgingen”

In gesprek met The Register spreekt advocaat bij Susman Godfrey Ian Crosby, die NYT bijstaat, over “bizarre aantijgingen” vanuit OpenAI. “Wat OpenAI op bizarre wijze als ‘hacken’ omschrijft, is simpelweg het gebruik van OpenAI’s producten om te zoeken naar bewijs dat ze de auteursrechtelijk beschermde werken van The Times hebben gestolen en gereproduceerd,” stelde Crosby. “En dat is precies wat we hebben gevonden. In feite is de schaal waarop OpenAI kopieert veel groter dan de meer dan 100 voorbeelden die in de klacht worden genoemd.”

Of meer aanklachten vanuit andere nieuwsorganisaties volgen, is niet zeker. Wel heeft OpenAI al deals gesloten met Axel Springer (de uitgever van o.a. Politico) en Associated Press. Het ligt niet in de lijn der verwachting dat The New York Times op korte termijn zal tekenen voor een soortgelijk contract.

