5min

Tags in dit artikel

, , , ,

De Nederlandse datasets om taalmodellen te trainen worden voor het grootste deel gevoed door een illegaal bevonden piratensite. Zo blijkt uit recent onderzoek. Verder stelt het onderzoek dat de filter van OpenAI om online inhoud te controleren op kwaliteit, niet voldoende werkt voor Nederlandstalige inhoud. Is ChatGPT een chatbot van privacyschending en piraterij?  

ChatGPT spreekt een aardig mondje Nederlands. Onze taal moet het taalmodel zichzelf hebben aangeleerd, met Nederlandse data die vrij op het internet voor handen is. Doorgaans houdt een bedrijf de samenstelling van trainingsets geheim. Zo is het bijvoorbeeld niet bekend hoe GPT-3, het model achter ChatGPT, tot stand kwam.

Meertalige datasets

Wel bekend is de database die het volledige internet zowat samenvat, genaamd Common Crawl. De dataset is in meerdere talen beschikbaar in mC4. De dataset is het geesteskind van Google en was veel moeilijker te verkrijgen dan een Engelstalige dataset. Volgens onderzoekers van de techgigant was het voor C4, de Engelstalige dataset, voldoende om de beschikbare digitale inhoud van april 2019 op te nemen. Voor mC4 was het nodig om 71 maandelijkse web scrapes van Common Crawl samen te voegen.

Het nut van de dataset demonstreerde Google in zijn Natural Language Processing (NLP)-taalmodel mT5. Alle code en trainingsets zijn openbaar toegankelijk. Die keuze beargumenteren de onderzoekers als volgt: “We geven alle code en vooraf getrainde datasets vrij die worden gebruikt in dit document om toekomstige werkzaamheden op het gebied van meertaligheidsonderzoek te vereenvoudigen.”

Piratensite koploper

Het zou niet verassend zijn als deze dataset eveneens de basis vormt voor GPT-3 en dus ChatGPT. Zoals gebleken zijn meertalige datasets namelijk maar moeilijk samen te stellen en dus niet talrijk. De Groene Amsterdammer ging met die theorie aan de slag en kwam tot de conclusie dat de MC4-dataset naar alle waarschijnlijkheid achter het taalmodel van OpenAI zit. Verder werd er bekeken welke Nederlandstalige websites dan precies de basis vormen voor de trainingsets. Daar valt over te zeggen dat er in de top twintig op zijn minst verassende resultaten zitten.

De grootste bron voor de mC4-dataset is bijvoorbeeld al de omstreden Nederlandse piratensite Docplayer. Goed voor 3,6 procent van de totale dataset. De website is een paradijs voor hackers, aangezien privé-informatie zoals documenten met evaluaties van sollicitanten, er vrij te verkrijgen zijn. De website struint hiervoor constant het internet af op zoek naar bestanden. De website bevat verder gegevens uit datalekken, complete cv’s en belastingaangiften. Het duurde niet lang voordat de website illegaal werd bevonden door de Autoriteit Persoonsgegevens en het National Cyber Security Centrum. Toch is de website nog steeds in de lucht.

De top drie bestaat verder uit tripadvisor.nl (1,9%) en uitspraken.rechtspraak.nl (1,2%). Advertenties van particuliere verkopers hebben de dataset ook goed aangevuld. 0,3 procent is afkomstig van ebay.nl, dat plaats elf inneemt en marktplaats.nl heeft een aandeel van 0,2 procent. Hierdoor heeft het taalmodel kennis van heel wat telefoonnummers uit advertenties op deze websites.

Hiernaast slurpt de dataset nog heel wat informatie op uit websites die bol staan van desinformatie. Zo vond het onderzoek de neonazistische website Stormfront, complotsite Vrijspeker en anti-islamitische en eurofobe blog E.J. Bron.

Lekke kwaliteitsfilter

Niet-Engelstalige websites zijn voor de bedrijven achter chatbots moeilijk te controleren op betrouwbaarheid en relevantie. De ontwikkeling van taalmodellen gebeurt namelijk doorgaans in de Verenigde Staten, waar onderzoekers hoofdzakelijk Engelstalig zijn. Zij zullen alvast niet vertellen welke website er zeker in de dataset moet zitten en welke je beter achterwege laat.

Bovendien is het aantal Nederlandstalige websites op het wereldwijde internet niet zo hoog. Een goed getrainde chatbot krijg je alleen maar door voldoende trainingsmateriaal aan te leveren en dat haal je niet met alleen de meest prestigieuze websites op te nemen.

Dat geeft dus samen het probleem dat niet-Engelstalige NLP-taalmodellen getraind worden met datasets vol desinformatie, privégegevens en auteursrechtelijk beschermde inhoud. Een mix van deze elementen vind je terug in het antwoord dat een chatbot je geeft. Taalmodellen reproduceren namelijk de informatie waarmee ze getraind worden om je prompt te begrijpen en te beantwoorden.

OpenAI probeerde het probleem op te lossen door de chatbot ook te leren filteren op de kwaliteit van een bron. Teksten die volgens het model goed scoren, worden vervolgens vaker gebruikt in het trainingsmateriaal. De regels om een tekst als ‘goed’ te beoordelen, werden door de onderzoekers zelf ontworpen. Hierdoor gebruikt GPT-3 vaker Wikipedia-bronnen, websites die goed gedeeld worden op het socialemediaplatform Reddit en een collectie van boeken. Om welke boeken het precies gaat, weet niemand.

Het onderzoek toont echter dat de filter voor Nederlandstalige websites zo lek als een zeef blijkt te zijn. Anders hadden nieuwsmedia en andere informatiebronnen wel boven docplayer.nl uit geparadeerd. Bovendien verengelst de database een chatbot, doordat de filter voorkeur geeft aan teksten van blanke, hoogopgeleide en Amerikaanse elite.  

Niet teruggefloten?

Kan een grote Amerikaanse onderneming zoals OpenAI hier ongeschonden mee wegkomen? Piraterij en privacyschending zijn namelijk geen zaken waar je ongestraft mee weg zou mogen komen. De Autoriteit Persoonsgegevens (AP) trekt alvast aan de alarmbel en stuurde OpenAI een brief om meer duidelijkheid te vragen over ChatGPT. Daar zegt het zelf het volgende over: “De AP wil onder meer weten hoe OpenAI omgaat met persoonsgegevens bij het trainen van het onderliggende systeem.”

De autoriteit stelt niet alleen in vraag of persoonsgegevens in de trainingsets voorkomen, maar ook wat er gebeurt met gestelde vragen (prompts) die persoonlijke informatie bevatten. Generatieve AI en dus ook dit taalmodel, verfijnt zich namelijk verder door prompts mee op te nemen in het trainingsmateriaal. Tot slot worden er zorgen geuit over de gegeneerde antwoorden op vragen over andere personen. “De gegenereerde inhoud kan onnauwkeurig zijn, verouderd, onjuist, ongepast, beledigend, of aanstootgevend en kan een eigen leven gaan leiden”, stelt de AP.

De brief van de AP is nog maar net verzonden en het is afwachten op welke manier OpenAI zal antwoorden. Het onderzoek toont wel het belang van regulering voor kunstmatige intelligentie aan. Voor het einde van 2023 zou de AI Act van de Europese Unie een feit moeten zijn. Dat moet een rem zetten op de verspreiding van desinformatie en persoonsgegevens via AI-gegenereerde inhoud. Vanaf dan zullen zoals OpenAI niet langer kunnen wegkomen met piraterij en privacyschending.  

Lees ook: Zijn Google en OpenAI de juiste partners om AI te reguleren?