Die robots.txt-Datei ist ein essenzielles Werkzeug, um Suchmaschinen-Crawlern (wie Googlebot) mitzuteilen, welche Bereiche deiner Website sie indexieren dürfen und welche nicht. In diesem Artikel erfährst du, wie du eine robots.txt erstellst, welche Anweisungen sie enthalten sollte und wie du sie für SEO optimierst – etwa um veraltete oder nicht mehr relevante Inhalte wie alte Sprachversionen aus dem Google-Index zu entfernen. Zusätzlich werfen wir einen Blick auf die neue llms.txt, die speziell für KI-Modelle entwickelt wurde.
Die robots.txt ist eine einfache Textdatei, die im Stammverzeichnis deiner Website (Root-Verzeichnis) abgelegt wird. Sie dient dazu, Suchmaschinen-Crawlern Anweisungen zu geben, welche Seiten oder Verzeichnisse sie crawlen und welche sie ignorieren sollen. So kannst du steuern, welche Inhalte in den Suchmaschinenindex aufgenommen werden.
Die robots.txt wird im Stammverzeichnis deiner Website platziert, erreichbar unter https://deinedomain.de/robots.txt. So gehst du vor:
Hier sind die gängigsten Befehle:
User-agent: *
(* = alle Crawler)
Disallow: /admin/
Allow: /blog/
Sitemap
Zeigt die URL deiner XML-Sitemap.
Sitemap: https://deinedomain.de/sitemap.xml
Wildcard
Platzhalter wie * oder $ für flexible Regeln.
Disallow: /private/* # Blockiert alles unter /private/
Disallow: /*.pdf$ # Blockiert alle PDFs
Hinweis: Die Noindex-Anweisung gehört nicht in die robots.txt, da Google sie ignoriert. Nutze dafür Meta-Tags auf den Seiten.
Ein einfaches Beispiel:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Allow: /wp-admin/admin-ajax.php
Sitemap: https://deinedomain.de/sitemap.xml
Angenommen, deine Website ist nur noch auf Deutsch verfügbar, und du hast das WPML-Plugin entfernt. Google hat jedoch alte URLs wie https://besirious.net/es/ indexiert. Mit der robots.txt kannst du diese ausschließen:
User-agent: *
Disallow: /es/*
Disallow: /fr/*
Disallow: /it/*
Sitemap: https://besirious.net/sitemap.xml
Das signalisiert Google und anderen Suchmaschinen, dass diese Verzeichnisse nicht mehr gecrawlt werden sollen, und sie verschwinden aus dem Index.
Nachdem du deine robots.txt-Datei erstellt hast, solltest du sie überprüfen, um sicherzustellen, dass sie korrekt formatiert ist und funktioniert. Dazu kannst du Tools wie den Google Search Console robots.txt-Tester.
Neu im Fokus: Die llms.txt ist ein vorgeschlagener Standard, um Large Language Models (LLMs) wie ChatGPT oder Gemini zu den wichtigsten Inhalten deiner Website zu führen. Während robots.txt Crawler steuert, dient llms.txt als Wegweiser für KI.
Die llms.txt hilft LLMs, relevante Inhalte effizient zu finden und zu nutzen. Sie schließt die Lücke zwischen komplexen HTML-Seiten und den präzisen Informationen, die KI-Modelle brauchen.
# Meine Website
> Eine Plattform für SEO-Tipps und KI-Entwicklungen.
Erfahre mehr über Weboptimierung.
## Wichtige Inhalte
- [SEO-Guide](https://deinedomain.de/seo): Praktische SEO-Tipps.
- [KI-Tools](https://deinedomain.de/ki): Die besten KI-Ressourcen.
## Optional
- [Archiv](https://deinedomain.de/archiv): Alte Artikel.
In diesem Fall sagst du den Crawlern, dass alle Seiten unter /es/
, /fr/
und /it/
(die Sprachversionen) nicht mehr gecrawlt werden sollen. Das hilft Google dabei zu verstehen, dass diese Seiten nicht mehr existieren, und sie werden aus dem Index entfernt.
Merkmal | llms.txt | robots.txt |
---|---|---|
Zweck | LLMs zu Inhalten führen | Crawling steuern |
Format | Markdown | Text mit Direktiven |
Blockiert? | Nein | Ja (via Disallow ) |
Status | Experimentell | Standard |
Die llms.txt blockiert nichts, sondern priorisiert Inhalte für KI-Modelle.
Die llms.txt ist noch experimentell. Große LLM-Anbieter unterstützen sie nicht offiziell, aber sie gewinnt an Relevanz, da KI-Nutzung wächst.
Wenn du nicht sicher bist, wie du deine robots.txt erstellen kannst, gibt es unser kostenloses Tool:
Die robots.txt ist eine Textdatei, die in das Stammverzeichnis einer Website hochgeladen wird. Sie gibt Suchmaschinen-Crawlern wie Google Anweisungen, welche Seiten oder Verzeichnisse sie crawlen dürfen und welche nicht.
Mit der robots.txt kannst du Suchmaschinen daran hindern, unnötige oder irrelevante Seiten deiner Website zu crawlen. Dies spart Crawl-Budget und hilft, den Fokus auf die wichtigen Seiten deiner Website zu legen, was die SEO-Performance verbessert.
Du kannst eine robots.txt-Datei in einem einfachen Texteditor (z. B. Notepad) erstellen. Nach dem Erstellen der Datei lädst du sie über ein FTP-Programm oder den Dateimanager deines Hosting-Providers ins Stammverzeichnis deiner Website hoch.
Die robots.txt sollte Anweisungen enthalten, wie Disallow für Bereiche, die nicht gecrawlt werden sollen, und Allow für Seiten, die explizit gecrawlt werden dürfen. Außerdem kannst du die URL deiner Sitemap angeben.
Ja, mit der Disallow-Anweisung in der robots.txt kannst du bestimmte Seiten oder ganze Verzeichnisse vom Crawling ausschließen.
Du kannst die robots.txt in der Google Search Console oder mit einem robots.txt-Tester überprüfen, um sicherzustellen, dass sie korrekt funktioniert und die gewünschten Anweisungen gibt.
Wenn du eine Seite mit der Disallow-Anweisung blockierst, wird sie von Suchmaschinen nicht gecrawlt. Das bedeutet, dass sie nicht in den Suchergebnissen erscheint oder entfernt wird, falls sie zuvor indexiert wurde.
Die llms.txt dient dazu, Large Language Models (LLMs) wie ChatGPT oder Gemini zu den wichtigsten und relevantesten Inhalten einer Website zu führen. Anders als die robots.txt, die das Crawlen steuert, priorisiert llms.txt Inhalte, um KI-Modellen zu helfen, präzise und kontextreiche Antworten zu generieren.
Die llms.txt wird im Markdown-Format erstellt, um sie für Menschen und Maschinen lesbar zu machen. Sie wird im Stammverzeichnis der Website abgelegt, erreichbar unter https://deinedomain.de/llms.txt.
Eine llms.txt enthält:
Schluss mit komplizierten KI-Anfragen! Unsere „Promptbibliothek“ liefert dir 141 sofort anwendbare Befehle, mit denen du ChatGPT mühelos für kreative Projekte, effiziente Workflows und geschäftlichen Erfolg nutzen kannst – auch ohne Vorkenntnisse.
Was macht eine Software für Sie unverzichtbar? Nehmen Sie an unserer kurzen Umfrage teil.