Google beachtet das Noindex in der robots.txt ab Sept.19 nicht mehr

Schon jetzt ist bekannt, dass bei Google ab dem 1. September neue Regeln für Suchmaschineneinweiser gelten sollen. Google wird dann einige der Anweisungen, die sich bis jetzt in den robots.txt-Dateien befinden, nicht mehr unterstützen. Als Grund gibt Google an, dass die robots.txt schon jetzt kaum noch verwendet werden. Zum Glück bietet Google aber Alternativen an.

Was ist von der Änderung betroffen?

Robots.txt ist die Kurzform für das Robots-Exklusion-Standard-Protokoll (REP). Seit 25 Jahren gilt es als Standard, um den Crawlern der Suchmaschinen zu sagen, welche Bereiche einer Webseite durchsucht werden sollen und welche Bereiche ausgelassen werden können. Als Crawler, Spider oder Robots wird ein Programm bezeichnet, welches selbstständig im Internet nach Inhalten auf Webseiten sucht, um deren Informationen zu lesen und indexiert. Diese Suche läuft vollkommen automatisch ab und sollte auch nicht beeinflusst werden können.

Nun hat Google angekündigt, dass REP zu einem Standard werden soll, der unter Open-Source-Bedingungen eingesehen werden kann. Laut Google sollen Details zum Handling des REP öffentlich gemacht werden. Anweisungen, die über 20 Jahre Bestand hatten, werden damit nicht mehr unterstützt. Von der neuen Regelung sind vor allem Nofollow, Noindex und Crawl-delay betroffen. Laut Google verwenden nur 0,001 Prozent der gesamten robots.txt-Dateien diese Anweisungen.

Wofür ist robots.txt zuständig?

Beim Robots-Exlusion-Standard-Protokoll handelt es sich um eine Textdatei. In dieser Datei kann festgelegt werden, welche Bereiche einer Domain gesehen werden dürfen und welche nicht. Wenn eine Seite aufgerufen wird, suchen die Crawler als Erstes nach den robots.txt, um sie zu interpretieren. Anders gesagt enthalten die robots.txt Bestimmungen für die Suchmaschinen-Bots und sind das Erste, auf das die Suchmaschinen beim Bot zugreifen. Die robots.txt bietet die Möglichkeit, einzelne Dateien im Verzeichnis, komplette Verzeichnisse mit ihren Unterverzeichnissen oder sogar ganze Domains vom Crawling auszuschließen. Sie haben einen grossen Einfluss auf die Indexierung und die Analyse der Webseite.

Hintergrund und Aufbau

Die robots.txt hat noch mehr Aufgaben. Sie soll zum Beispiel dabei helfen, das Crawling durch die Suchmaschinenrobots zu führen. Des Weiteren kann in dieser Datei ein Verweis auf die XML-Sitemap enthalten sein. Damit kann der Crawler darüber informiert werden, welche URL-Struktur diese Webseite hat.

Das Robots Exclusion Standard Protokoll gibt es seit 1994. Es legt fest, wie Suchmaschinenrobots mit einer Datei umgehen, bevor die Indexierung startet. Dazu muss die Datei im Root-Verzeichnis der Domän abgelegt sein und den kompletten Dateinamen tragen. Einen Zugriffsschutz auf die Seite bietet die robots.txt allerdings nicht, denn einige Suchmaschinen zeigen die gesperrten Seiten trotzdem, jedoch ohne Beschreibungstext. Das ist vor allem dann der Fall, wenn sich auf der Seite viele Backlinks befinden. Die größten Suchmaschinen wie Yahoo, Bing oder Google halten sich an die Vorgaben.

Bedeutung von robots.txt für die Suchmaschinenoptimierung

Robots.txt hat auf die Suchmaschinenoptimierung einen grossen Einfluss. Seiten, die mit dieser Datei ausgeschlossen wurden, können nicht ranken. Im Normalfall sollten Sie lediglich mit einem Platzhaltertext auftauchen. Wer seine Seiten mit robots.txt zu sehr einschränkt, muss damit rechnen, dass es für ihn keine Bewegungen in Ranking gibt. Gibt es auf der Webseite allerdings zu viel Duplikate Content, kann das zu einer offenen Notation führen. Mit robots.txt sollte generell vorsichtig umgegangen und auf Genauigkeit geachtet werden. Das Gleiche gilt übrigens auch für die Verwendung von Wildcarts. Ein Test in der Search Console von Google ist nach der Fertigstellung einer Webseite auf jeden Fall empfehlenswert.

Nach wie vor ist robots.txt eine der wichtigsten Möglichkeiten für alle Webmaster, die Suchmaschinencrawler zu steuern. Wenn es bei der Anwendung Fehler gibt, kann das dazu führen, dass einzelne Webseiten nicht mehr erreicht werden können und damit auch nicht im Index der Suchmaschinen erscheint. Ob Suchmaschinen eine Webseite überhaupt registrieren oder betrachten, hängt eng mit der Indexierung zusammen. Robots.txt sollte eigentlich keine Auswirkungen auf das Ranking haben, aber die Arbeit von Googlebots wird mit ihr gesteuert.

Was sich ab September ändert

Google lässt nicht nur einige Anweisungen verschwinden, sondern bietet gleichzeitig Alternativen für das weitere Vorgehen an.

Die Noindex-Anweisung kann auch in Zukunft in den Meta Robots-Tags oder dem HTTP-Header eingesetzt werden. Hier behalten Sie ihre Gültigkeit. Damit können einzelne Webseiten aus dem Google Index herausgehalten werden, falls ansonsten das Crawlen möglich ist.

Soll eine URL nur temporär nicht im Googleindex gefunden werden, kann in der Search Console von Google auch das Tool Remove URL verwendet werden. Diese Methode ist einfach und kann schnell durchgeführt oder rückgängig gemacht werden.

Eine andere Möglichkeit ist es, den Status 404 oder 410 zu setzen. Damit wird dem Bot vorgespielt, dass es diese Seiten gar nicht gibt. Dadurch können Sie im Index nicht gelistet werden. Das gleiche Prinzip funktioniert mit einem Passwortschutz. Stehen Inhalte hinter einem Login, können Sie ebenfalls vom Googleindex nicht erfasst werden.

Sie können in der robots.txt auch ein Disallow einsetzen. Auch damit verwehren sie den Crawlern den Zutritt zu der entsprechenden Webseite. Wenn Crawler den Inhalt nicht durchsuchen können, kann er auch nicht indexiert werden.

Auch wenn Google einige Anweisungen der robots.txt nicht mehr unterstützt, haben Webmaster trotzdem noch die Möglichkeit, eine Indexierung bestimmter Seiten zu verhindern.