Cloudflare beschuldigt Perplexity van negeren crawl-limitaties

Cloudflare heeft in een blogpost aangegeven dat AI-zoekbedrijf Perplexity mogelijk actief websites crawlt zonder de geldende richtlijnen en beperkingen voor bots te respecteren.

Volgens de netwerkdienstverlener gebruikt Perplexity technieken om detectie te omzeilen en zo toegang te krijgen tot content die normaal gesproken wordt afgeschermd voor geautomatiseerd verkeer.

De verdenkingen richten zich op zogenoemd stealth crawling. Daarbij zou Perplexity in eerste instantie herkenbaar crawlen onder eigen naam, maar overschakelen op andere methoden zodra het verkeer wordt geblokkeerd. Zo constateerde Cloudflare dat de crawlers hun identiteit aanpasten door zich voor te doen als reguliere browsers, zoals Chrome op macOS. Ook werd gebruikgemaakt van wisselende IP-adressen en verschillende autonome systemen (ASN’s) om firewallregels te ontwijken.

Om deze bevindingen te toetsen, zette Cloudflare een testomgeving op met nieuwe domeinen waarop beperkingen waren ingesteld gericht op bots van Perplexity. De resultaten toonden volgens het bedrijf aan dat de crawlers aanvankelijk te herkennen waren als afkomstig van Perplexity, maar bij een blokkade overschakelden naar generieke user agents die normaal gesproken geassocieerd worden met menselijke gebruikers. Daarnaast werd vastgesteld dat de gebruikte IP-adressen buiten de bekende ranges van het bedrijf vielen en dat de ASN’s varieerden.

Volgens Cloudflare wijkt dit gedrag af van de algemeen aanvaarde normen op internet, zoals het robots.txt-protocol. Dat protocol maakt het voor website-eigenaren mogelijk om aan te geven welke delen van een site wel of niet toegankelijk zijn voor geautomatiseerde systemen. Cloudflare benadrukt in de blogpost dat transparantie over het doel en de identiteit van crawlers essentieel is, zeker in het licht van de toenemende inzet van AI bij informatieverwerking.

Perplexity biedt een AI-zoekmachine aan die gebruikers in natuurlijke taal voorziet van samenvattingen en antwoorden, gebaseerd op webinhoud. Crawling speelt hierin een belangrijke rol, omdat de onderliggende modellen afhankelijk zijn van toegang tot actuele online informatie.

Miljoenen verzoeken per dag

De schaal van de geconstateerde activiteit is volgens Cloudflare aanzienlijk. Het zou gaan om miljoenen verzoeken per dag. En dat verspreid over tienduizenden domeinen. Het bedrijf stelt dat dit patroon niet incidenteel is en heeft inmiddels maatregelen genomen. Zo is Perplexity verwijderd uit de lijst van geverifieerde bots. Ook zijn aanvullende netwerkregels geactiveerd om dit type verkeer te blokkeren.

The Verge citeert een woordvoerder van Perplexity, Jesse Dwyer, is het rapport van Cloudflare voornamelijk een publiciteitsstunt en bevat het veel misverstanden over hun werkwijze. Het bedrijf ontkent daarmee enige opzettelijke misleiding of technische trucs zoals het wisselen van user-agents of IP-infrastructuur. Hoewel Perplexity de conclusies van het onderzoek in twijfel trekt, gaan ze niet nader in op de specifieke technische bevindingen van Cloudflare over bijvoorbeeld gewijzigde user-agents of autonome systemen.

Eerder werd Perplexity ook al geconfronteerd met kritiek rond het verzamelen van webinhoud, waarbij onder meer vragen werden gesteld over de manier waarop het bedrijf omgaat met robots.txt-beperkingen. Destijds gaf de directie aan dat bepaalde scrapingactiviteiten mogelijk afkomstig waren van testbots buiten hun eigen infrastructuur.

Heldere richtlijnen noodzakelijk

Cloudflare herhaalt in de blogpost zijn oproep aan de sector om heldere richtlijnen af te spreken voor AI-crawling. Volgens het bedrijf moeten dergelijke systemen duidelijk herkenbaar zijn, zich aan de voorkeuren van websites houden en uitsluitend informatie verzamelen op een manier die ethisch en transparant is.