OpenAI heeft onthuld hoe de eigen web crawler te identificeren is. Voortaan kunnen websites de GPTBot user agent blokkeren als ze dat willen. Daarmee kunnen ze mogelijk ervoor zorgen dat ze niet gebruikt worden ter training van een toekomstige LLM van OpenAI, maar is dat wel aan te raden?
In de documentatie is te lezen dat OpenAI de GPTBot-agent kan gebruiken om “toekomstige modellen te verbeteren”, waarbij het sites met paywalls niet opneemt ter dataverzameling. Echter zijn er volgens VentureBeat al sites zoals The Verge en Clarkesworld die de crawler gaan blokkeren. Dit is mogelijk door het robots.txt-document aan te vullen met een token om de bot te weren. Daarbij kan men ook ervoor kiezen om bepaalde secties wel open te stellen en andere niet.
Verdienmodel
Het bedrijf is sterk afhankelijk van externe data om AI-modellen te trainen. Bij het grotere publiek is de grote dataset te herkennen in de brede kennis van ChatGPT, ook al stopt de kennis van zaken bij die chatbot in september 2021.
Echter is OpenAI de afgelopen maanden druk bezig geweest met het sluiten van contracten met talloze partijen, van Microsoft tot Salesforce, BuzzFeed en Atlassian. De kennis die de GPT-modellen huisvesten, leiden dus tot veel omzet. Als website moet je je dus afvragen of je hier zomaar aan mee wil doen.
Wat heb je te verliezen?
Wie GPTBot blokkeert, zal daar aanvankelijk niks van merken. Een GPT-4-toepassing die geen internettoegang toestaat, heeft een al ingebakken dataset waar niks aan verandert. Echter zijn er ook GPT-gebaseerde applicaties zoals Bing Chat die wel online kunnen. In dat specifieke geval fungeert de tool ook gelijk als een zoekmachine. Laat dat nu net een voorbeeld zijn van de waarde die je als website kunt halen uit een dergelijke bot.
Immers zijn nieuwsorganisaties, webshops en zowat alle online platforms grotendeels afhankelijk van Google. De vindbaarheid van nieuws is dermate belangrijk dat Canadese outlets zich een tijdje geleden gingen verzetten tegen het mogelijk blokkeren van Google News.
Tip: Google wil niet betalen voor Canadese nieuwslinks
Zo zal een zoekmachine met hulp van generatieve AI mogelijk in de nabije toekomst een vergelijkbaar belang krijgen voor websites. Dat dwingt partijen tot een wisselwerking, waarbij de eigen informatie ook voor andere doeleinden kan worden gebruikt. Het filteren van paywall-informatie en persoonlijke gegevens fungeert al als een (relatief kleine) inperking van de vrijheid van de dataverzameling.
Kortom: je moet je afvragen of je OpenAI principieel dient te weren. Een organisatie van formaat kan kiezen voor een deal met het bedrijf, wellicht zelfs om nóg meer data te kunnen gebruiken. Dit is het plan van aanpak dat The Associated Press onlangs aankondigde in samenwerking met OpenAI. Het voordeel voor laatstgenoemde is daarbij dat het steeds meer kan rusten op betrouwbare bronnen, in tegenstelling tot een discutabele informatie vanuit platforms als Reddit en X.
Lees ook: OpenAI mag Associated Press-archief voor AI-training inzetten