robots.txt disallow

von T. Lentschik | Jul 8, 2017 | Off-Page Optimierung

Die robots.txt Datei wird gerne eingesetzt, um Suchmaschinen-Crawler per disallow daran zu hindern, auf die in der Datei festgelegten Seiten und Inhalte ihrer Website zuzugreifen um diese nicht zu indexieren und damit auch in den Ergebnislisten der Suchmaschinen nicht anzuzeigen. Der Googlebot und andere seriöse Webcrawler, werden diese in der robots.txt bestimmten Inhalte gar nicht erst besuchen. Allerdings ist nicht gewährleistet, dass auch andere Crawler sich daran halten, da die robots.txt Datei lediglich als eine Richtlinie dient. Außerdem kann eine robots.txt nicht verhindern, dass auf anderen Webseiten verweise auf bestimmte URLs gesetzt werden.

Eine robots.txt Datei erstellen

Damit der Googlebot und andere Webcrawler die robots.txt Datei finden und lesen können, ist es wichtig:

den robots.txt-Code als Textdatei zu speichern
die Datei im Stammverzeichnis root der Domain abzulegen (also zB. unter http://www.beispielurl.at/robots.txt
der robots.txt Datei den Namen „robots.txt“ zu gebe
dass die Befehle in der robots.txt Datei dem Robots Exclusion Standard – Protokoll entsprechen

Der Inhalt der robots.txt Datei, entsprechend dem RES-Protokolls, sieht dann wie folgt aus:

Mit User-agent: * werden alle Crawler angesprochen.

Um den disallow auf bestimmte User-Agents einzuschränken, können stattdessen auch folgende Namen eingetragen werden:

Googlebot für die Google Web Suche.
Googlebot-Image für die Google Bildersuche.
Googlebot-Video für den Video Crawler von Google.
Googlebot-Mobile für die Google Suche über Mobile Geräte.
EmailCollector, um das Erfassen von E-Mail-Adressen zu erschweren.
Bingbot für die Suche von Bing.
Weitere Crawler listen Google und Bing.

Folgende Platzhalter für Pfadwerte werden von den gängigsten Suchmaschinen unterstützt und können bei der Pfadangabe verwendet werden:

* steht für 0 oder mehr Exemplare ungültiger Zeichen.
$ gibt das Ende einer URL an.
/ als URL Pfad gibt an, dass der gesamte Inhalt blockiert werden soll.

Robots.txt Beispiele

Im obigen Beispiel ist die gesamte URL (Zeile 2) für alle Crawler (Zeile 1) blockiert.

Für den Web Crawler von Google (Zeile 1) ist

der gesamte Inhalt des Ordners „Temp“ blockiert. (Zeile 2)
alle Ordner und Dateien blockiert, die die Zeichenkette doc im Pfadnamen enthalten (Zeile 3) Das wären zB.: doc.html, documt.html, /documents/file.html, … Achtung: /Documents/ wäre nicht betroffen, da zwischen Groß- und Kleinschreibung unterschieden wird!
Von der Blockierung ausgenommen sind alle .php Files, die im Namen die Zeichenkette test beinhalten. (Zeile 4) Also zB.: test.php, dertest.php, … Dazu zählen jedoch nicht /testfile.php?parameters, da das $ hinter dem .php festlegt, dass die Dateiendung nach dem .php zu Ende sein muss. Auch tests.PHP wäre hier nicht dabei aufgrund der Groß-/Kleinschreibung.

Alternativen zur robots.txt Datei

Meta-Tag noindex

Möchte man verhindern, dass eine einzelne Seite in der Google-Suche auftaucht, kann man auch das Meta-Tag noindex in den <head> des HTML-Codes dieser Seite hinzufügen. Damit wird beim nächsten mal, wenn die Seite gecrawlt wird, vom Googlebot erkannt, dass dass die gesamte Seite aus den Google Suchergebnissen auszuschließen ist.

Damit das Meta-Tag noindex funktionieren kann, muss die Seite gecrawlt werden können. Dass bedeutet, die Seite darf nicht in der robots.txt Datei blockiert sein.

Passwortgeschütztes Verzeichnis

Alternativ kann man vertrauliche oder private Inhalte auch sehr effizient für alle Crawler unzugänglich machen, indem man die Daten auf dem Webserver in einem passwortgeschützten Verzeichnis speichert.

Tina hat E-Commerce und Online-Marketing studiert, ist Inhaberin von WebBoost und arbeitet als IT-Technikerin am OFI.

Tina Lentschik, MSc

Inhaberin, WebBoost

Follows