Google wil dat zijn decennia oude Robots Exclusion Protocol een internetstandaard wordt

Google wil dat zijn decennia oude Robots Exclusion Protocol (REP) gecertificeerd wordt als een officiële internetstandaard. Om dat mogelijk te maken, heeft het zijn robots.txt parser open source gemaakt.

REP is een protocol dat website-eigenaren kunnen gebruiken om web crawlers en andere clients de toegang tot een website te ontzeggen, schrijft Silicon Angle. Volgens de internetgigant zelf is dit “één van de meest basic en belangrijkste componenten van het internet”. Het is volgens Google dan ook het beste voor iedereen als het een officiële standaard wordt.

De crawler van Google – Googlebot – scant normaal gesproken het robots.txt-bestand als het een website indexeert voor zijn zoekmachine. In dat bestand zoekt het dan naar instructies over welk deel van de website het moet negeren. Bestaat er geen robots.txt-bestand in de root directory, dan gaat de crawler er vanuit dat het de gehele website kan indexeren.

Standaard

Het is niet voor het eerst dat voorgesteld wordt om van REP een internetstandaard te maken. Eén van de makers van het protocol, de Nederlandse software-engineer Martijn Koster, stelde dit in 1994 al voor. In de tussentijd is het protocol ook al de standaard die gebruikt wordt door websites om crawlers te vertellen welk deel van een website ze niet moeten verwerken.

Google is echter bang dat doordat REP nooit een officiële standaard is geworden, het in de afgelopen jaren ietwat anders is geïnterpreteerd door ontwikkelaars. Daardoor is het “lastig om de regels goed te schrijven”, aldus Google.

Dit zorgt er bijvoorbeeld voor dat er voor crawlers en ontwikkelaars van tools onzekerheden ontstaan. “Hoe moeten ze bijvoorbeeld omgaan met robots.txt-bestanden die honderden megabytes groot zijn?” Voor webmasters ontstond er onzekerheid wanneer hun text editor bijvoorbeeld BOM-karakters toevoegde aan de bestanden.

Documentatie

Google hoopt de problemen op te lossen aan de hand van zijn eigen documentatie. Daarin staat precies hoe REP gebruikt moet worden op het moderne internet. Ook heeft het een voorstel ingediend bij de Internet Engineering Task Force, in de hoop dat het een officiële standaard wordt.