QUELLE: Search Engine Journal
Veröffentlicht: 2026-04-24
Autor: Berndt Schwanenmeisterja | Seoholics
Lesezeit: 2 min
Was ist passiert?
Google plant, seine Liste der nicht unterstützten Robots.txt-Regeln zu erweitern, basierend auf der Analyse von Daten aus dem HTTP Archive. Dies betrifft insbesondere die häufigsten, nicht unterstützten Direktiven, die in der Praxis verwendet werden.
Die Fakten
- Datenbasis: Die Analyse basiert auf Daten des HTTP Archive, das monatlich Millionen von URLs crawled und in Google BigQuery speichert.
- Parser-Entwicklung: Da Robots.txt-Dateien nicht standardmäßig gecrawlt werden, wurde ein spezieller JavaScript-Parser entwickelt, um die Regeln aus diesen Dateien zu extrahieren.
- Feldverteilung: Nach „allow“, „disallow“ und „user-agent“ fällt die Nutzung anderer Felder drastisch ab. Es gibt einen langen „Tail“ seltener Direktiven und fehlerhafter Dateien.
- Aktuelle Unterstützung: Google unterstützt derzeit nur vier Felder in Robots.txt: „user-agent“, „allow“, „disallow“ und „sitemap“.
- Top 10-15 Direktiven: Die 10 bis 15 am häufigsten verwendeten, nicht unterstützten Regeln sollen der Dokumentation hinzugefügt werden. Konkrete Beispiele wurden noch nicht genannt.
Was bedeutet das für Dich?
- Robots.txt Audit: Überprüfe Deine Robots.txt-Datei auf Direktiven, die über die vier unterstützten Felder hinausgehen.
- Nicht unterstützte Regeln entfernen: Entferne alle nicht unterstützten Direktiven, da diese von Google ignoriert werden und somit keine Wirkung haben.
- Rechtschreibprüfung „disallow“: Achte auf korrekte Schreibweise von „disallow“, da Google plant, eine tolerantere Fehlerbehandlung zu implementieren.
- BigQuery Analyse: Nutze die öffentlich zugänglichen Daten im Google BigQuery, um die Verbreitung verschiedener Robots.txt-Regeln zu analysieren und Dein Vorgehen zu optimieren.
Experten-Meinung
Gary Illyes von Google betonte, dass das Ziel ist, eine solide Grundlage für die Dokumentation der am häufigsten verwendeten, nicht unterstützten Tags zu schaffen. Dies soll die öffentliche Dokumentation an die tatsächliche Nutzung anpassen und Klarheit schaffen.
Daten und Zahlen
- Das HTTP Archive crawled im Februar 2024 Millionen von URLs.
- Der entwickelte JavaScript-Parser extrahiert Robots.txt-Regeln zeilenweise.
- Die Nutzung der drei am häufigsten verwendeten Felder („allow“, „disallow“, „user-agent“) dominiert die Robots.txt-Landschaft, während alle anderen Felder nur einen minimalen Anteil ausmachen.
Ausblick
Die Aktualisierung wird sich auf die öffentliche Dokumentation von Google und die Behandlung von Tippfehlern bei „disallow“ auswirken. Es ist zu erwarten, dass Google in Zukunft eine detailliertere Liste der nicht unterstützten Regeln bereitstellen wird, was die Transparenz erhöht und potenziellen Missverständnissen vorbeugt.