Google könnte Liste ungültiger Robots.txt-Regeln erweitern

Die Fakten

Datenbasis: Die Analyse basiert auf Daten des HTTP Archive, das monatlich Millionen von URLs crawled und in Google BigQuery speichert.

Parser-Entwicklung: Da Robots.txt-Dateien nicht standardmäßig gecrawlt werden, wurde ein spezieller JavaScript-Parser entwickelt, um die Regeln aus diesen Dateien zu extrahieren.

Feldverteilung: Nach „allow“, „disallow“ und „user-agent“ fällt die Nutzung anderer Felder drastisch ab. Es gibt einen langen „Tail“ seltener Direktiven und fehlerhafter Dateien.

Aktuelle Unterstützung: Google unterstützt derzeit nur vier Felder in Robots.txt: „user-agent“, „allow“, „disallow“ und „sitemap“.

Top 10-15 Direktiven: Die 10 bis 15 am häufigsten verwendeten, nicht unterstützten Regeln sollen der Dokumentation hinzugefügt werden. Konkrete Beispiele wurden noch nicht genannt.

Was bedeutet das für Dich?

Robots.txt Audit: Überprüfe Deine Robots.txt-Datei auf Direktiven, die über die vier unterstützten Felder hinausgehen.

Nicht unterstützte Regeln entfernen: Entferne alle nicht unterstützten Direktiven, da diese von Google ignoriert werden und somit keine Wirkung haben.

Rechtschreibprüfung „disallow“: Achte auf korrekte Schreibweise von „disallow“, da Google plant, eine tolerantere Fehlerbehandlung zu implementieren.

BigQuery Analyse: Nutze die öffentlich zugänglichen Daten im Google BigQuery, um die Verbreitung verschiedener Robots.txt-Regeln zu analysieren und Dein Vorgehen zu optimieren.

Daten und Zahlen

Das HTTP Archive crawled im Februar 2024 Millionen von URLs.

Der entwickelte JavaScript-Parser extrahiert Robots.txt-Regeln zeilenweise.

Die Nutzung der drei am häufigsten verwendeten Felder („allow“, „disallow“, „user-agent“) dominiert die Robots.txt-Landschaft, während alle anderen Felder nur einen minimalen Anteil ausmachen.

Ausblick

Die Aktualisierung wird sich auf die öffentliche Dokumentation von Google und die Behandlung von Tippfehlern bei „disallow“ auswirken. Es ist zu erwarten, dass Google in Zukunft eine detailliertere Liste der nicht unterstützten Regeln bereitstellen wird, was die Transparenz erhöht und potenziellen Missverständnissen vorbeugt.

Google könnte Liste ungültiger Robots.txt-Regeln erweitern

Was ist passiert?

Die Fakten

Was bedeutet das für Dich?

Experten-Meinung

Daten und Zahlen

Ausblick

Quellen

Weitere Tipps und tricks

Google Kernupdate Mai 2026: Rollout beginnt

Max 2026: Kern-Update für Mai

Agentic SEO: Was es ist und wie du jetzt beginnst