robots.txt: Was ist das und wie nutzt man sie für SEO?

Die robots.txt-Datei ist ein wichtiges Tool, um Suchmaschinen-Crawlern Anweisungen zu geben, welche Bereiche deiner Website sie indexieren dürfen und welche nicht. In diesem Artikel erfährst du, wie du eine robots.txt erstellst, was darin stehen sollte und wie du sie für SEO optimieren kannst, um veraltete oder nicht mehr relevante Inhalte – wie alte Sprachversionen deiner Website – aus dem Google-Index zu entfernen.

robots.txt seo

Was ist die robots.txt?

Die robots.txt-Datei ist eine einfache Textdatei, die im Stammverzeichnis deiner Website abgelegt wird. Sie gibt Suchmaschinen-Crawlern (z. B. Googlebot) Anweisungen, welche Seiten oder Verzeichnisse sie crawlen und welche sie ignorieren sollen. Mit dieser Datei kannst du kontrollieren, welche Bereiche deiner Website in den Suchmaschinenindex aufgenommen werden und welche nicht.

Warum braucht man eine robots.txt?

Die robots.txt ist wichtig, um:

  1. Unnötiges Crawlen zu vermeiden: Du kannst verhindern, dass Suchmaschinen unwichtige oder sensible Seiten wie Admin-Bereiche, interne Seiten oder temporäre Inhalte crawlen.
  2. Crawl-Budget zu sparen: Suchmaschinen haben für jede Website ein begrenztes Crawl-Budget. Indem du unwichtige Seiten ausschließt, stellst du sicher, dass nur die wichtigen Seiten gecrawlt werden.
  3. Duplicate Content zu vermeiden: Mit der robots.txt kannst du verhindern, dass doppelte Inhalte (z. B. Archivseiten oder Parameter-URLs) von Suchmaschinen indexiert werden.
  4. Alte oder nicht mehr existierende Seiten aus dem Index fernzuhalten: Wenn es Bereiche deiner Website gibt, die du nicht mehr anbieten möchtest (wie z. B. bei Sprachumstellungen), kannst du verhindern, dass diese URLs weiterhin gecrawlt werden.

Wie und wo legt man die robots.txt an?

Die robots.txt-Datei wird im Stammverzeichnis deiner Website abgelegt (das Root-Verzeichnis). Du kannst sie über einen FTP-Zugang oder den File Manager deines Hosting-Providers hochladen.

So erstellst du eine robots.txt:

  1. Öffne einen Texteditor wie Notepad oder Sublime Text.
  2. Schreibe die gewünschten Anweisungen in die Datei (mehr dazu unten).
  3. Speichere die Datei als „robots.txt“.
  4. Lade die Datei in das Stammverzeichnis deiner Website hoch, das unter der URL https://deinedomain.de/robots.txt erreichbar ist.

Wichtige Anweisungen in der robots.txt

In der robots.txt-Datei gibt es verschiedene Anweisungen, die du den Suchmaschinen geben kannst. Hier sind die gängigsten:

User-agent

Mit der User-agent-Anweisung definierst du, für welchen Suchmaschinen-Crawler die Anweisungen gelten sollen. Beispiel:

				
					User-agent: *
				
			

Die Anweisung * bedeutet, dass die Regeln für alle Crawler gelten.

Disallow

Mit der Disallow-Anweisung sagst du den Suchmaschinen, welche Seiten oder Verzeichnisse sie nicht crawlen sollen. Beispiel:

				
					Disallow: /admin/
				
			

Das bedeutet, dass alle Crawler das Verzeichnis „/admin/“ ignorieren sollen.

Allow

Mit der Allow-Anweisung kannst du explizit festlegen, welche Seiten in einem ansonsten gesperrten Verzeichnis crawlen dürfen. Beispiel:

				
					Allow: /blog/
				
			

Sitemap

Die Sitemap-Anweisung gibt den Crawlern die URL zur XML-Sitemap deiner Website, damit sie die Seitenstruktur besser verstehen. Beispiel:

				
					Sitemap: https://deinedomain.de/sitemap.xml
				
			

Noindex

Die Anweisung Noindex wird in der robots.txt eigentlich nicht mehr empfohlen, da Suchmaschinen wie Google sie ignorieren. Stattdessen solltest du die Noindex-Anweisung im Meta-Tag der jeweiligen Seiten verwenden.

Ein Template für deine robots.txt

Hier ist ein Grundgerüst für eine einfache robots.txt:

				
					User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Allow: /wp-admin/admin-ajax.php

Sitemap: https://deinedomain.de/sitemap.xml
				
			

Konkretes Beispiel: URLs von nicht mehr existierenden Sprachseiten ausschließen

In deinem Fall wurde entschieden, dass deine Website nur noch in deutscher Sprache verfügbar ist und du das WPML-Plugin entfernt hast. Allerdings hat Google bereits viele URLs der alten Sprachversionen indexiert, wie z. B. https://besirious.net/es/ für spanische Inhalte. Um Google klarzumachen, dass diese Seiten nicht mehr existieren und nicht weiter gecrawlt werden sollen, kannst du die Disallow-Anweisung für das entsprechende Verzeichnis verwenden.

Beispiel für die robots.txt:

				
					User-agent: *
Disallow: /es/
Disallow: /fr/
Disallow: /it/

Sitemap: https://besirious.net/sitemap.xml
				
			

In diesem Fall sagst du den Crawlern, dass alle Seiten unter /es/, /fr/ und /it/ (die Sprachversionen) nicht mehr gecrawlt werden sollen. Das hilft Google dabei zu verstehen, dass diese Seiten nicht mehr existieren, und sie werden aus dem Index entfernt.

robots.txt validieren

Nachdem du deine robots.txt-Datei erstellt hast, solltest du sie überprüfen, um sicherzustellen, dass sie korrekt formatiert ist und funktioniert. Dazu kannst du Tools wie den Google Search Console robots.txt-Tester.

google search console robots.txt

Kostenloses Tool zur Erstellung der robots.txt

Wenn du nicht sicher bist, wie du deine robots.txt erstellen kannst, gibt es unser kostenloses Tool:

FAQ

Die robots.txt ist eine Textdatei, die in das Stammverzeichnis einer Website hochgeladen wird. Sie gibt Suchmaschinen-Crawlern wie Google Anweisungen, welche Seiten oder Verzeichnisse sie crawlen dürfen und welche nicht.

Mit der robots.txt kannst du Suchmaschinen daran hindern, unnötige oder irrelevante Seiten deiner Website zu crawlen. Dies spart Crawl-Budget und hilft, den Fokus auf die wichtigen Seiten deiner Website zu legen, was die SEO-Performance verbessert.

Du kannst eine robots.txt-Datei in einem einfachen Texteditor (z. B. Notepad) erstellen. Nach dem Erstellen der Datei lädst du sie über ein FTP-Programm oder den Dateimanager deines Hosting-Providers ins Stammverzeichnis deiner Website hoch.

Die robots.txt sollte Anweisungen enthalten, wie Disallow für Bereiche, die nicht gecrawlt werden sollen, und Allow für Seiten, die explizit gecrawlt werden dürfen. Außerdem kannst du die URL deiner Sitemap angeben.

Ja, mit der Disallow-Anweisung in der robots.txt kannst du bestimmte Seiten oder ganze Verzeichnisse vom Crawling ausschließen.

Du kannst die robots.txt in der Google Search Console oder mit einem robots.txt-Tester überprüfen, um sicherzustellen, dass sie korrekt funktioniert und die gewünschten Anweisungen gibt.

Wenn du eine Seite mit der Disallow-Anweisung blockierst, wird sie von Suchmaschinen nicht gecrawlt. Das bedeutet, dass sie nicht in den Suchergebnissen erscheint oder entfernt wird, falls sie zuvor indexiert wurde.