Schritt für Schritt zu robots.txt-Perfektion

Schritt für Schritt zu robots.txt-Perfektion

Tagtäglich crawlen verschiedenste Bots von Suchmaschinenanbietern unzählige Websites, um nach Content-Updates zu suchen und das nötige Basismaterial für Rankings zu sammeln. Welche Bereiche sie auf welche Weise wie oft untersuchen, kann zu einem gewissen Teil auf Webmaster-Ebene vorgegeben werden. Die robots.txt-Datei funktioniert wie eine Art Verhaltenskodex für Suchmaschinenroboter. Mit ein paar Kniffen lässt sich dieses File umfassend optimieren und für positive SEO-Effekte nützen.

Wofür braucht man eine robots.txt-Datei?

Theoretisch müssen Crawling-Bots den Vorgaben der robots.txt-Datei nicht folgen. Google tut dies allerdings, ansonsten wären die folgenden Ausführungen wohl ziemlich sinnbefreit. Wenn also Bots auf einer Seite landen, überprüfen sie zunächst die Anweisungen in diesem File. Fehlt eine solche Datei oder ist sie leer, wird die gesamte Website gecrawlt, selbst private Seiten. Was bei kleinen Sites selten ein Problem ist, kann die Erfassung von neuen Inhalten bei großen Anbietern erschweren oder zumindest stark verlangsamen. Mit der robots.txt erhält man etwas mehr Kontrolle, welche Bereiche erfasst werden, und welche nicht:

  • Gewisse Seiten oder Seitenbereiche können vom Indexierungsprozess vollständig ausgeschlossen werden. Das bietet sich beispielsweise für Entwicklungsbereiche von neuen Design-Varianten oder Login-Bereiche an.
  • Suchmaschinen haben nur ein bestimmtes Zeitbudget für den Crawling-Prozess zur Verfügung. Durch das Blocken unnötiger, Index-irrelevanter Seiten können neue, wichtige Inhalte schneller von Suchmaschinen erfasst werden.
  • Während der Meta-Befehl „no-index“ die Indexierung individueller Seiten verhindert, benötigen multimediale Inhalte (wie PDF- oder Office-Dateien) eigene Befehle. Die robots.txt kann den Bot-Zugriff verhindern.

Die wichtigsten robots.txt-Elemente auf einen Blick

Wie aber ist eine robots.txt-Datei tatsächlich aufgebaut? Welche Befehle, welche Inhalte landen in diesem File? Die robots.txt darf keinen HTML-Code enthalten – daher die .txt-Endung – und liegt immer im Root-Ordner einer Website bzw. im Root-Ordner der jeweiligen Subdomain. Über die enthaltene Syntax werden Regeln für bestimmte Bots definiert. Dafür kommen folgende Elemente zum Einsatz:

  • User-Agents beschreiben die verschiedenen Crawling-Bots. Google verwendet den Googlebot, Bing den Bingbot, DuckDuckGo arbeitet mit DuckDuckBot. Unter Agent-Angabe können pro Bot bzw. Suchmaschine eigene Regeln definiert werden.
  • Directives geben die tatsächlichen Verhaltensregeln an. Disallow verbietet das Crawlen bestimmter Seiten und Bereiche, Allow ermutigt dazu in ansonsten gesperrten Sektionen.
  • Mit der Sitemap-Syntax werden Crawler auf die XML-Sitemap der eigenen Website verwiesen. Diese beinhaltet eine Liste sämtlicher Seiten, die indexiert werden sollen. Auf diese Weise erfahren Bots und Suchmaschinen, welcher Content von höchster Wichtigkeit ist. Oft wird diese Zeile zu Beginn der robots.txt-Datei platziert.
  • Comments mit dem Rautezeichen # sind für die Bots irrelevant. Sie dienen zur Hinterlegung von Kommentaren und Anweisungen von menschlichen Usern für menschliche User – ideal als Erinnerungsstütze oder wenn mehrere Personen an der robots.txt arbeiten.

Hilfreiche Tipps zur robots.txt-Erstellung

Die robots.txt-Datei kann viel Gutes schaffen, birgt allerdings auch einige Risiken in sich, gerade wenn die nötige Coding-Erfahrung fehlt. Deswegen sollten die folgenden Tipps bei der Erstellung und Bearbeitung unbedingt beachtet werden.

  • Um die Bots nicht zu verwirren, muss jede Directive eine eigene Zeile erhalten. Eine „Directive-Wurst“ sorgt für Verwirrung und kann die korrekte Indexierung verhindern.
  • Nicht jeder Bot verhält sich gleich. Während Google und Bing beispielsweise Allows nach Disallows erlauben (man schließt einen kompletten Crawling-Bereich aus und erlaubt im Anschluss einzelne Seiten), würden andere Bots nach dem Disallow das folgende Allow ignorieren.
  • Theoretisch können User-Agent-Anweisungen kreuz und quer gesetzt werden, also zunächst eine Google-Anweisung, dann etwas für DuckDuckGoGo, danach Yahoo, zwischendrin wieder Google … um menschliche Fehler zu vermeiden, ist es aber definitiv sinnvoll, sämtliche User-Agent-Befehle untereinander in jeweils eigene Zeilen zu gruppieren.
  • Wildcards (*) vereinfachen Anweisungen. Allgemeingültige Befehle für alle Bots lassen sich beispielsweise als „User-agent: *“ einleiten. In Kombination mit dem Dollarsymbol, welches das Ende einer URL signalisiert, könnte beispielsweise die Indexierung aller PDF-Files (Disallow: /*.pdf$) verhindert werden.
  • Meta-Befehle haben in der robots.txt nichts verloren. Die No-Index-Directive wird von Google seit Juli 2019 unterstützt, bei Bing funktionierte sie nie.
  • Zudem sollten robots.txt-Dateien nie 512 KB überschreiten (alle Anweisungen jenseits dieser Dateigröße können ignoriert werden) und gesondert für alle Subdomains definiert und hinterlegt werden.

Fehlersuche in der robots.txt-Datei

Eine smart codierte und optimierte robots.txt-Datei kann den SEO-Effekt einer Website positiv unterstützen. Sie kann allerdings ebenfalls einiges an Schaden anrichten, wenn sich vermeidbare Fehler eingeschlichen haben. Die Google Search Console bietet einen eigenen Bereich zur Überprüfung dieser Files, zudem erlaubt ein eigenes Webmaster-Tool den Fehlercheck neuer Funktionen, bevor robots.txt-Updates online gehen. Folgende Fehler treten besonders häufig auf:

  • „Gesendete URL durch robots.txt blockiert“ erklärt, dass eine oder mehrere in der Sitemap hinterlegte URL(s) aufgrund von robots.txt-Regeln nicht indexiert werden können. Mit dem Testing-Tool lassen sich problematische Coding-Zeilen ermitteln.
  • „Durch robots.txt blockiert“ muss kein Fehler sein, sondern könnte exakt das gewünschte Directive-Ergebnis anzeigen. Es lohnt sich dennoch, die Liste der entsprechenden URLs durchzuarbeiten, um fälschlicherweise blockierte Seiten und Inhalte dem Index erneut zuzuführen.
  • „„Indexiert, obwohl durch robots.txt blockiert“ beschreibt Inhalte, die trotz robots.txt-Disallow indexiert werden, weil sie der Googlebot durch Verlinkungen aus dem Netz crawlen kann. Hier würde such der No-Index-Meta-Tag als schlagkräftige Alternative anbieten.

robots.txt-Dateien bieten viel Potenzial, aber auch einiges an Risiko. Durch eine sorgfältige Vorgehensweise und die nötigen Grundkenntnisse von User-Agents und Directives lassen sich problematische Fehler in der Regel vermeiden. Der Mehrwert auf SEO-Ebene kann den Unterschied auf dem Weg an den Platz in der Sonne machen.

Quelle: seosherpa.com

Copyright Foto: ©pixabay.com/kiquebg

Datenschutzinformation
Der datenschutzrechtliche Verantwortliche (ALEWA GmbH, Österreich) würde gerne mit folgenden Diensten Ihre personenbezogenen Daten verarbeiten. Dies ist für die Nutzung der Website nicht notwendig, ermöglicht aber eine noch engere Interaktion mit Ihnen. Falls gewünscht, treffen Sie bitte eine Auswahl: