Nicht immer ist es erwünscht das die Suchroboter der einschlägigen Suchmaschinen alle Webseiten eines Webservers abscannen.
Außerdem kann der Traffic, der durch bestimmte Suchroboter verursacht wird, mehr oder weniger durch “Zugriffsrechte” auf Verzeichnisse gesteuert werden.
Zur Steuerung wird eine Datei mit dem Namen robots.txt in das Webroot der jeweiligen Domain gelegt.
Der Inhalt steuert die Search-Bots…
Allen Search-Bots den Zugriff erlauben:
Disallow:
Um nur einem bestimmten Searchbot den Zugriff erlauben (Beispiel MSNbot):
User-agent: msnbot
Disallow:
User-agent: *
Disallow: /
Allen Search-Bots den Zugriff untersagen:
User-agent: *
Disallow: /
Einem bestimmten Search-Bot den zugriff untersagen (Beispiel MSNbot):
User-agent: msnbot
Disallow: /
Alle Search-Bots von bestimmten Verzeichnissen fernhalten:
User-agent: *
Disallow: /directory/
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Manchen Search-Bots kann man noch sagen welche Files gescannt werden dürfen. Das geschieht meistens über eine Ausschlußliste.
Beispiel am MSNbot:
User-agent: msnbot
Disallow: /*.PDF$
Disallow: /*.jpeg$
Disallow: /*.exe$
Weitere Infos, Beispiele und Erklärungen gibt es unter The Robot Pages zu lesen. Durch geschickte Kombination aller Möglichkeiten kann man wunderbar steuern welcher Robot welche Informationen sammelt und dabei auch noch daran hindern evtl. sensible Daten an eine Suchmaschine weiterzugeben.
Will man diese Features nicht nutzen aber trotzdem die Log-Einträge des Webservers loswerden in denen es heisst das keine robots.txt gefunden wurde, legt man einfach ein leeres File mit dem Namen an und hinterlegt es im Webroot.

