Die robots.txt-Datei ist ein wichtiges Tool, um Suchmaschinen-Crawlern Anweisungen zu geben, welche Bereiche deiner Website sie indexieren dürfen und welche nicht. In diesem Artikel erfährst du, wie du eine robots.txt erstellst, was darin stehen sollte und wie du sie für SEO optimieren kannst, um veraltete oder nicht mehr relevante Inhalte – wie alte Sprachversionen deiner Website – aus dem Google-Index zu entfernen.
Die robots.txt-Datei ist eine einfache Textdatei, die im Stammverzeichnis deiner Website abgelegt wird. Sie gibt Suchmaschinen-Crawlern (z. B. Googlebot) Anweisungen, welche Seiten oder Verzeichnisse sie crawlen und welche sie ignorieren sollen. Mit dieser Datei kannst du kontrollieren, welche Bereiche deiner Website in den Suchmaschinenindex aufgenommen werden und welche nicht.
Die robots.txt ist wichtig, um:
Die robots.txt-Datei wird im Stammverzeichnis deiner Website abgelegt (das Root-Verzeichnis). Du kannst sie über einen FTP-Zugang oder den File Manager deines Hosting-Providers hochladen.
So erstellst du eine robots.txt:
https://deinedomain.de/robots.txt
erreichbar ist.In der robots.txt-Datei gibt es verschiedene Anweisungen, die du den Suchmaschinen geben kannst. Hier sind die gängigsten:
Mit der User-agent-Anweisung definierst du, für welchen Suchmaschinen-Crawler die Anweisungen gelten sollen. Beispiel:
User-agent: *
Die Anweisung *
bedeutet, dass die Regeln für alle Crawler gelten.
Mit der Disallow-Anweisung sagst du den Suchmaschinen, welche Seiten oder Verzeichnisse sie nicht crawlen sollen. Beispiel:
Disallow: /admin/
Das bedeutet, dass alle Crawler das Verzeichnis „/admin/“ ignorieren sollen.
Mit der Allow-Anweisung kannst du explizit festlegen, welche Seiten in einem ansonsten gesperrten Verzeichnis crawlen dürfen. Beispiel:
Allow: /blog/
Die Sitemap-Anweisung gibt den Crawlern die URL zur XML-Sitemap deiner Website, damit sie die Seitenstruktur besser verstehen. Beispiel:
Sitemap: https://deinedomain.de/sitemap.xml
Die Anweisung Noindex wird in der robots.txt eigentlich nicht mehr empfohlen, da Suchmaschinen wie Google sie ignorieren. Stattdessen solltest du die Noindex-Anweisung im Meta-Tag der jeweiligen Seiten verwenden.
Hier ist ein Grundgerüst für eine einfache robots.txt:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Allow: /wp-admin/admin-ajax.php
Sitemap: https://deinedomain.de/sitemap.xml
In deinem Fall wurde entschieden, dass deine Website nur noch in deutscher Sprache verfügbar ist und du das WPML-Plugin entfernt hast. Allerdings hat Google bereits viele URLs der alten Sprachversionen indexiert, wie z. B. https://besirious.net/es/ für spanische Inhalte. Um Google klarzumachen, dass diese Seiten nicht mehr existieren und nicht weiter gecrawlt werden sollen, kannst du die Disallow-Anweisung für das entsprechende Verzeichnis verwenden.
Beispiel für die robots.txt:
User-agent: *
Disallow: /es/
Disallow: /fr/
Disallow: /it/
Sitemap: https://besirious.net/sitemap.xml
In diesem Fall sagst du den Crawlern, dass alle Seiten unter /es/
, /fr/
und /it/
(die Sprachversionen) nicht mehr gecrawlt werden sollen. Das hilft Google dabei zu verstehen, dass diese Seiten nicht mehr existieren, und sie werden aus dem Index entfernt.
Nachdem du deine robots.txt-Datei erstellt hast, solltest du sie überprüfen, um sicherzustellen, dass sie korrekt formatiert ist und funktioniert. Dazu kannst du Tools wie den Google Search Console robots.txt-Tester.
Wenn du nicht sicher bist, wie du deine robots.txt erstellen kannst, gibt es unser kostenloses Tool:
Die robots.txt ist eine Textdatei, die in das Stammverzeichnis einer Website hochgeladen wird. Sie gibt Suchmaschinen-Crawlern wie Google Anweisungen, welche Seiten oder Verzeichnisse sie crawlen dürfen und welche nicht.
Mit der robots.txt kannst du Suchmaschinen daran hindern, unnötige oder irrelevante Seiten deiner Website zu crawlen. Dies spart Crawl-Budget und hilft, den Fokus auf die wichtigen Seiten deiner Website zu legen, was die SEO-Performance verbessert.
Du kannst eine robots.txt-Datei in einem einfachen Texteditor (z. B. Notepad) erstellen. Nach dem Erstellen der Datei lädst du sie über ein FTP-Programm oder den Dateimanager deines Hosting-Providers ins Stammverzeichnis deiner Website hoch.
Die robots.txt sollte Anweisungen enthalten, wie Disallow für Bereiche, die nicht gecrawlt werden sollen, und Allow für Seiten, die explizit gecrawlt werden dürfen. Außerdem kannst du die URL deiner Sitemap angeben.
Ja, mit der Disallow-Anweisung in der robots.txt kannst du bestimmte Seiten oder ganze Verzeichnisse vom Crawling ausschließen.
Du kannst die robots.txt in der Google Search Console oder mit einem robots.txt-Tester überprüfen, um sicherzustellen, dass sie korrekt funktioniert und die gewünschten Anweisungen gibt.
Wenn du eine Seite mit der Disallow-Anweisung blockierst, wird sie von Suchmaschinen nicht gecrawlt. Das bedeutet, dass sie nicht in den Suchergebnissen erscheint oder entfernt wird, falls sie zuvor indexiert wurde.