Sites kunnen nu OpenAI-data scraping blokkeren, is dat verstandig?

OpenAI heeft onthuld hoe de eigen web crawler te identificeren is. Voortaan kunnen websites de GPTBot user agent blokkeren als ze dat willen. Daarmee kunnen ze mogelijk ervoor zorgen dat ze niet gebruikt worden ter training van een toekomstige LLM van OpenAI, maar is dat wel aan te raden?

In de documentatie is te lezen dat OpenAI de GPTBot-agent kan gebruiken om “toekomstige modellen te verbeteren”, waarbij het sites met paywalls niet opneemt ter dataverzameling. Echter zijn er volgens VentureBeat al sites zoals The Verge en Clarkesworld die de crawler gaan blokkeren. Dit is mogelijk door het robots.txt-document aan te vullen met een token om de bot te weren. Daarbij kan men ook ervoor kiezen om bepaalde secties wel open te stellen en andere niet.

Verdienmodel

Het bedrijf is sterk afhankelijk van externe data om AI-modellen te trainen. Bij het grotere publiek is de grote dataset te herkennen in de brede kennis van ChatGPT, ook al stopt de kennis van zaken bij die chatbot in september 2021.

Echter is OpenAI de afgelopen maanden druk bezig geweest met het sluiten van contracten met talloze partijen, van Microsoft tot Salesforce, BuzzFeed en Atlassian. De kennis die de GPT-modellen huisvesten, leiden dus tot veel omzet. Als website moet je je dus afvragen of je hier zomaar aan mee wil doen.

Wat heb je te verliezen?

Wie GPTBot blokkeert, zal daar aanvankelijk niks van merken. Een GPT-4-toepassing die geen internettoegang toestaat, heeft een al ingebakken dataset waar niks aan verandert. Echter zijn er ook GPT-gebaseerde applicaties zoals Bing Chat die wel online kunnen. In dat specifieke geval fungeert de tool ook gelijk als een zoekmachine. Laat dat nu net een voorbeeld zijn van de waarde die je als website kunt halen uit een dergelijke bot.

Immers zijn nieuwsorganisaties, webshops en zowat alle online platforms grotendeels afhankelijk van Google. De vindbaarheid van nieuws is dermate belangrijk dat Canadese outlets zich een tijdje geleden gingen verzetten tegen het mogelijk blokkeren van Google News.

Tip: Google wil niet betalen voor Canadese nieuwslinks

Zo zal een zoekmachine met hulp van generatieve AI mogelijk in de nabije toekomst een vergelijkbaar belang krijgen voor websites. Dat dwingt partijen tot een wisselwerking, waarbij de eigen informatie ook voor andere doeleinden kan worden gebruikt. Het filteren van paywall-informatie en persoonlijke gegevens fungeert al als een (relatief kleine) inperking van de vrijheid van de dataverzameling.

Kortom: je moet je afvragen of je OpenAI principieel dient te weren. Een organisatie van formaat kan kiezen voor een deal met het bedrijf, wellicht zelfs om nóg meer data te kunnen gebruiken. Dit is het plan van aanpak dat The Associated Press onlangs aankondigde in samenwerking met OpenAI. Het voordeel voor laatstgenoemde is daarbij dat het steeds meer kan rusten op betrouwbare bronnen, in tegenstelling tot een discutabele informatie vanuit platforms als Reddit en X.

Lees ook: OpenAI mag Associated Press-archief voor AI-training inzetten

Keuze van de redactie

Insight: SentinelOne

Lees meer over Applications

Top story

Domeinspecifieke AI verslaat generieke modellen in business apps

Het AI-team van Visma is stilletjes bezig met het herdefiniëren van documentverwerking in Europa. Met bijna ...

Berry Zwets 10 juli 2025

Tech calendar

Sites kunnen nu OpenAI-data scraping blokkeren, is dat verstandig?

Verdienmodel

Wat heb je te verliezen?

Blijf op de hoogte, abonneer!

De AI-golf dwingt organisaties hun infrastructuur te herzien

Veel wegen leiden naar Oracle: de routes van VTTI en Hendrix Genetics

Cognizant en Google Cloud slaan brug tussen AI-visie en praktijk met AI-lab

Domeinspecifieke AI verslaat generieke modellen in business apps

CyberArk en SentinelOne bundelen krachten voor betere identiteitsecurity

SentinelOne brengt het autonome SOC een stap dichterbij

SentinelOne neemt PingSafe over en zet grote stap in cloud security

Krijg Volledig Inzicht van Gebruiker tot Cloud met Cisco ThousandEyes

GITEX DIGI_HEALTH 5.0 - Thailand

IT Arena

Innovation Week 2025

Luxembourg Venture Days

Appdevcon

Hoe maak je duurzaamheid echt praktisch?

Verbeter je digitale ervaringen met de Cisco AI Assistant

Ervaar gratis Synology’s nieuwste enterprise backup-oplossing

Versnel je AI-succes met NVIDIA AI Computing van HPE