robots.txt - Wie geht das nochmal?

Suchmaschinen Robots wie zum Beispiel die von Yahoo! und Google versuchen beim ersten Seitenaufruf einer Internetseite zunächst die robots.txt-Datei einzulesen, die üblicherweise im root des Webverzeichnisses liegen sollte. In der Robots.txt wird definiert welche Seiten oder Verzeichnisse welcher Robot lesen und indizieren darf. Tut man eine bestimmte Datei oder ein Verzeichnis mithilfe der robots.txt vor der Indexierung eines Webcrawlers schützen, so bedeutet dies nicht, dass dieser sich unbedingt daran hält. Dazu später mehr. Nun erstmal eine kleine Beschreibung der Syntax:

Syntax (Aufbau) der robots.txt
Eine robots.txt ist, wie die Dateiendung schon sagt, vom Format Textdatei. Das bedeutet sie kann z.B. mit dem ganz normalen Editor / Notepad von Windows angelegt werden und zwar nach folgendem Schema:

user-agent: Suchmaschinen-Name
Disallow: jeweilige Einschränkung

Hier nun einige Beispiel robots.txt-Dateien:

Die folgende Datei sperrt jegliche Indizierung (/) von sämtlichen Webcrawlern (*):

user-agent: *
Disallow: /

Diese Datei erlaubt allen Webcrawlern den Zugriff:

user-agent: *
Disallow:

Diese robots.txt verbietet dem fiktiven Robot „Kosmos-Crawler“ die Indexierung des Verzeichnisses „nicht-indexieren“:

user-agent: kosmos-crawler
Disallow: /nicht-indexieren

Kommentarzeilen kann man natürlich auch in die robots.txt einfügen, diese werden dann von den Bot ignoriert. Eine Kommentarzeile muss mit einer Raute (#) beginnen. Zum Beispiel:
# Dies ist eine Kommentarzeile

Die Indexierung von Webseiten kann auch über einen META-Tag erfolgen und zwar über folgenden:

<meta name=“robots“ content=“index,follow“>
-> bedeutet diese Seite soll indiziert werden und den angegeben Links soll gefolgt werden.

<meta name=“robots“ content=“noindex,nofollow“>
-> bedeutet hingegen, dass die aktuelle Seite nicht indiziert werden und den Links nicht gefolgt werden soll.

Natürlich gibt es auch sogenannte „Böse Webcrawler„, die sich nicht an die robots.txt und die META-Anweisung halten und wild drauf los indexieren und somit auch zu schützende Verzeichnisse oder Dateien in ihre Suchmaschinen-Datenbank aufnehmen. Von daher ist diese Art des Schutzes keine sichere und effektive Art und Weise z.B. ein privates Verzeichnis zu schützen. Dafür sollte man eine serverbasierte .htaccess-Datei anlegen (Dazu wird es auch irgendwann einen Blog-Eintrag geben).