Update, 1/8, 17u03: Reddit blokkeert zoekmachines en AI-bots zodat de inhoud van het social mediaplatform niet zonder toestemming gebruikt kan worden voor het trainen van LLM’s. Volgens Reddit-CEO Steve Huffman zijn contentdeals nodig om te voorkomen dat de inhoud gebruikt wordt voor ongeoorloofde doeleinden.
Hoewel de oorspronkelijke houding van Reddit er bijna een volkomen ontkenning was, horen we nu een ander verhaal van de CEO. In eerste instantie was de blokkade niet het gevolg van het gebrek aan contentdeals. Opvallend was echter dat zoekmachines met een deal, waaronder Google, niet uitgesloten werden van het platform.
Huffman komt nu met een andere uitleg: “Zonder deze overeenkomsten hebben we geen enkele zeggenschap of kennis over hoe onze gegevens worden weergegeven en waarvoor deze worden gebruikt, wat ons nu in een positie heeft gebracht waarin we mensen kunnen blokkeren die niet bereid zijn in het reine te komen met de manier waarop we wil dat onze gegevens worden gebruikt of niet.” Hij gaat verder dieper in over de mislukte onderhandelingen met Microsoft, Anthropic en Perplexity.
Origineel, 25/07, 13u14: Reddit onderneemt een nieuwe stap op het online scrapen voor de ontwikkeling van LLM’s te bestrijden. Alleen de zoekmachines die een betaalde deal sloten met het social mediaplatform hebben nog toegang.
Gebruikers van de zoekmachines Bing, DuckDuckGo, Mojeek en Qwant krijgen geen resultaten meer van Reddit te zien. De zoekmachines werden geblokkeerd om scrapen van content van Reddit tegen te gaan. Daarin halen AI-modellen content van het internet op zichzelf te trainen.
Volgens de voorwaarden van Reddit is scraping verboden als er geen toestemming is van het platform. AI-bedrijven negeren die voorwaarden eenvoudig en dus lijkt Reddit nu te besluiten harder op te treden. Door een aanpassing van het robots.txt-bestand zijn webcrawlers niet meer welkom. Crawlers voor onderzoeksdoeleinden werden in de aanpassing niet geblokkeerd.
‘Geen relatie met content-deal’
Het social mediaplatform laat Google en Brave wel nog toe. Deze bedrijven hebben reeds een deal gesloten om de content van Reddit te mogen gebruiken voor training van AI-modellen. Door deze deals verzekert Reddit zich ervan dat het financieel iets overhoudt aan de opkomst van AI. De deal met Google zou het platform jaarlijks bijvoorbeeld 60 miljoen dollar opleveren.
404 Media deed verslag over de gebeurtenis op basis van eigen onderzoek. Daarin werd ontdekt dat zoekopdrachten via ‘site:reddit.com’, waardoor zoekresultaten alleen op de website van Reddit worden gezocht, geen recente social mediaberichten meer tonen.
Volgens de auteur is de uitzondering voor Google en Brave het gevolg van de gesloten deals. Een woordvoerder van Reddit liet in een reactie aan The Verge weten dat deze bevinding niet correct is. “Dit heeft helemaal niets te maken met onze recente samenwerking met Google. We zijn in gesprek geweest met meerdere zoekmachines. We zijn er niet in geslaagd om met hen allemaal tot overeenstemming te komen, omdat sommigen geen afdwingbare beloften kunnen of willen doen met betrekking tot hun gebruik van Reddit-inhoud, inclusief hun gebruik voor AI.”
Lees ook: Google betaalt via AI-deal jaarlijks 60 miljoen dollar voor content op Reddit