robots.txt – Definition und Bedeutung für SEO
Die Datei robots.txt dient üblicherweise als eine Art Anleitung für Webcrawler. Als Webseitenbetreiber können Sie so genau festlegen, welche Unterseiten sich der Suchmaschinen-Bot einmal genauer ansehen sollte – und welche bitte nicht. Die robots.txt-Datei ist somit ein wichtiger Faktor in gleich mehrfacher Hinsicht. Wir zeigen Ihnen im Folgenden, um was es sich bei dieser Datei genau handelt, wie Sie diese erstellen und welche Bedeutung sie für die Suchmaschinenoptimierung hat.
Was ist robots.txt?
Die robots.txt-Datei ist eine reine Textdatei. Diese können Sie sich als eine Art Anleitung für einen Webcrawler vorstellen. Sie teilen diesem mit Hilfe der Datei mit, welche Bereiche Ihrer Webseite untersucht bzw. gecrawlt werden dürfen – und welche Bereiche von diesem Prozess ausgeschlossen werden sollen. Dabei können Sie einzelne Dateien, ganze Verzeichnisse oder sogar komplette Domains vom Crawling ausschließen. Generell wird deshalb von den Suchmaschinenbots in der Regel zuerst die robots.txt-Datei einer Webseite gesucht und gemäß dieser vorgegangen – daher die Bezeichnung als Anleitung für den Crawler.
Ebenfalls nutzen können Sie die Datei, um auf Ihre XML-Sitemap zu verweisen. Auf diesem Wege können Sie dem Suchmaschinenbot mitteilen, wie genau Ihre Webseite strukturiert ist. Das wiederum hilft ihm, Ihre Homepage besser zu verstehen und zu indexieren. Sie haben zusätzlich zu den Angaben in der robots.txt jederzeit die Möglichkeit, einzelne Unterseiten mit dem Attribut „Noindex“ von einer Indexierung auszuschließen, zum Beispiel im HTML-Code mit: meta name=“robots“ content=“noindex“ (eingerahmt mit spitzen Klammern).
Das sollten Sie über robots.txt wissen
Die robots.txt muss sich immer im Root-Verzeichnis Ihrer Domain befinden. Auch muss diese Datei exakt diesen Dateinamen tragen, damit Sie von den Crawlern direkt anvisiert werden kann. Wichtig für Sie zu wissen: Die robots.txt-Datei ist keine Pflichtanleitung für die Webcrawler. Große Bots, wie etwa von Google, halten sich an ihre Anweisungen. Das muss jedoch nicht sein. Es kann durchaus passieren, dass einige Crawler auch Seiten indexieren, die eigentlich nicht hätten indexiert werden sollen. In der Regel ist dies vor allem dann der Fall, wenn viele andere Seiten mit sogenannten Backlinks auf die betreffende Seite verlinken.
Wie erstellt man eine robots.txt-Datei?
Erstellen können Sie die robots.txt denkbar einfach mit Hilfe eines Texteditors. Alternativ können Sie im Internet auf verschiedene Tools zurückgreifen und mit deren Unterstützung Ihre Datei erstellen. Google etwa bietet hierfür in der Search Console eine eigene Funktion. Mit dieser können Sie die robots.txt nicht nur erstellen, sondern gleichzeitig auch direkt prüfen. Generell sollten Sie bei der Erstellung darauf achten, dass die Datei aus verschiedenen Blöcken erstellt wird. Diese Blöcke müssen immer zusammen agieren, da andernfalls kein korrektes Auslesen durch den Crawler möglich ist:
- User Agent: Hier wird direkt ein Suchmaschinen-Crawler angesprochen, der sich an die Anweisungen halten soll – zum Beispiel der Googlebot. Möglich ist es aber auch, mehrere Suchmaschinen gemeinsam anzusprechen.
- Disallow/Allow: Nach der Ansprache wird im zweiten Block festgelegt, wie sich der Crawler verhalten soll. Durch die Angabe „Disallow“ können Sie Verzeichnisse und Pfade von der Indexierung ausschließen. Mit der Angabe „Allow“ wiederum können Sie diese zulassen.
Achtung: Im Anschluss an die Erstellung sollten Sie unbedingt eine Prüfung der Datei durchführen, um Fehler auszuschließen und sicherzugehen, dass der Dateiinhalt korrekt ist bzw. den Wünschen für das Crawlen der Webseite entspricht.
Beispiel für eine robots.txt-Datei
Um Ihnen das Ganze auch noch einmal etwas konkreter vor Augen zu führen, stellen wir Ihnen hier ein paar Beispiele aus einer robots.txt-Datei vor:
Anweisung, eine Domain komplett zu crawlen
- User-Agent: Googlebot
- Allow: /
Anweisung, eine komplette Domain nicht zu crawlen
- User-Agent: Googlebot
- Disallow: /
Crawling nur einem bestimmten Bot – dem Googlebot – erlauben
- User-Agent: Googlebot
- Allow: /
- User-Agent: *
- Disallow: /
Verzeichnis für das Crawling sperren
- User-Agent: *
- Disallow: /verzeichnisname/
- User-Agent: *
- Disallow: /
Verzeichnis sperren und Unterverzeichnis trotzdem zulassen
- User-Agent: *
- Disallow: /verzeichnis/
- Allow: /verzeichnis/unterverzeichnis/
Anweisung, alle PDF-Dateien nicht zu indexieren
- User-Agent: *
- Disallow: /*.pdf$
Auf diese Feinheiten sollten Sie in der robots.txt achten
Bei der Erstellung einer robots.txt können sich schnell Fehler einschleichen. Haben Sie Glück, finden Sie diese direkt bei einer schnellen Kontrolle. Orientieren können Sie sich hierfür an den häufigsten Fehlern, die von Usern immer wieder gemacht werden. So wird häufig zum Beispiel ein ganzer Pfad-Bestandteil gesperrt, obwohl eigentlich nur ein gewisses Verzeichnis gesperrt werden sollte. Das passiert schon dadurch, dass Sie das Slash („/“) am Ende des Verzeichnisnamens vergessen. Ebenfalls häufig übersehen wird die Tatsache, dass eine Datei „Robots.txt“ und „robots.txt“ nicht identisch sind. Der Crawler sucht case-sensitive, also nach Groß- und Kleinschreibung unterscheidend. Das bedeutet: Er wird die robots.txt nur dann erkennen, wenn diese exakt so beschriftet ist. Großbuchstaben sorgen dafür, dass der Crawler die Datei nicht auffinden kann. Genau das Gleiche gilt übrigens auch für den Inhalt der Datei. Achten Sie also darauf, zum Beispiel Dateibezeichnungen wie „.pdf“ jederzeit kleinzuschreiben.
Welche Bedeutung hat die robots.txt-Datei für SEO?
Dass die robots.txt auch für die Suchmaschinenoptimierung eine große Rolle spielt, liegt auf der Hand. Webseiten, die in der Datei ausgeschlossen werden, können in der Regel auch nicht ranken. Sie sollten also mit Bedacht vorgehen und sich gut überlegen, welche Unterseiten oder Bereiche Ihrer Webseite Sie von einer Indexierung ausschließen müssen. Gründliche Genauigkeit ist gefragt, denn schon kleine Fehler können dazu führen, dass einzelne Unterseiten oder ganze Domains von Crawlern nicht mehr wahrgenommen werden können.
Gut zu wissen: Einen direkten Einfluss auf das Ranking hat die Datei nicht. Sollte keine Datei dieser Art vorhanden sein, kann Ihre Webseite natürlich dennoch gut ranken. Sie werden dann jedoch auch Seiten in den Suchmaschinenergebnissen finden, die vielleicht gar nicht hätten indexiert werden sollen. Eine vorhandene robots.txt-Datei ist somit aber keinesfalls eine Garantie für ein gutes Ranking.
Fazit: robots.txt wichtig für das Webseitencrawling
Was genau die robots.txt-Datei ist und welchen Mehrwert diese bietet, sollten Sie als Webmaster unbedingt wissen. Ebenso sollten Sie wissen, dass hier ein Höchstmaß an Genauigkeit gefragt ist. Schon kleine Fehler in der Syntax der Datei können schwere Auswirkungen für das Crawling nach sich ziehen. Achten Sie also unbedingt auf korrekte Angaben und prüfen Sie Ihre Datei mit Hilfe eines passenden Tools.
Ihre Ansprechpartnerin:
Katharina Silberbach
Geschäftsführung