5.6 Crawler mit Robots.txt steuern
Wie man mit Robots.txt Dateien den Suchmaschinen crawler steuern kann und so die Suchmaschinen Positionierung verbessern kann.
Um einem Web Crawler das einlesen von Dokumenten zu erleichtern und um Fehler bei dem indexieren
von Websites zu vermeiden hat man als Betreiber einer Homepage die Möglichkeit den Suchmaschinen Web Crawler
mit Robots.txt Dateien zu steuern.
Robots.txt dienen dazu Suchmaschinen Webcrawler aus bestimmten Verzeichnissen des Onlineangebots herauszuhalten.
Man kann mit Robots.txt Dateien Suchmaschinen verbieten bestimmte Verzeichnisse zu durchforsten.
Der Vorteil für Website Betreiber liegt hierbei darin das man verhindern kann das für die
Suchmaschinen Positionierung schlechte Dateien vom Web Crawler indexiert werden.
Eine Robots.txt Datei ist eine kleine Textdatei in der man anweisungen für den Suchmaschinen Web Crawler
notieren kann. Alle Web Crawler suchen beim indexieren einer Website zuerst nach der Robots.txt Datei im Stammverzeichniss
des Webservers/Webspaces.
Das Stammverzeichniss ist das Verzeichniss welches man direkt nach der Eingabe der URL einer Webseite erreicht
(also das Verzeichniss wo auch die Startseite/index.html abgelegt wird).
Eine Robots.txt besteht aus zwei grundlegenden Teilen:
die Angabe des User Agents (name des web Crawlers)
die Angabe der Verzeichnisse die nicht indexiert werden dürfen
Nachfolgend sehen sie das Beispiel einer Robots.txt Datei mit Erklärungen
user-agent:*
disallow:/images
disallow:/cgi-bin
disallow:/private
user-agent:* bedeutet das damit alle Web Crawler angesprochen werden.
Alternativ zu * können Sie auch den Web Crawler direkt beim Namen nennen und
so gezielt einer Suchmaschine verbieten die aufgelisteten Verzeichnisse zu durchforsten. Jeder Web Crawler hat eine
eigene Bezeichnung die Sie direkt in die Robots.txt übernehmen können wenn Sie möchten. In den meisten fällen
reicht allerdings eine Robots.txt Datei die für alle Web Crawler allgemein gültig ist wie in unserem Beipiel.
Hier finden
Sie eine Liste der aktuellen Namen von Web Crawlern.
disallow:/images, disallow:/cgi-bin, disallow:/private
verbietet den Zugriff für Webcrawler für die Verzeichnisse mit den Namen cgi-bin, images und private.
Weiterführende Links:
Nächstes Thema: Spam in SuchmaschinenInhaltsverzeichnis
Stichwortverzeichnis
Zur Startseite:
Positionierung und Web Crawler
copyright© by ranking-abc.de