Robots.txt & llms.txt: Was ist das & Nutzen?

Die robots.txt-Datei ist ein essenzielles Werkzeug, um Suchmaschinen-Crawlern (wie Googlebot) mitzuteilen, welche Bereiche deiner Website sie indexieren dürfen und welche nicht. In diesem Artikel erfährst du, wie du eine robots.txt erstellst, welche Anweisungen sie enthalten sollte und wie du sie für SEO optimierst – etwa um veraltete oder nicht mehr relevante Inhalte wie alte Sprachversionen aus dem Google-Index zu entfernen. Zusätzlich werfen wir einen Blick auf die neue llms.txt, die speziell für KI-Modelle entwickelt wurde.

robots.txt seo

Was ist die robots.txt?

Die robots.txt ist eine einfache Textdatei, die im Stammverzeichnis deiner Website (Root-Verzeichnis) abgelegt wird. Sie dient dazu, Suchmaschinen-Crawlern Anweisungen zu geben, welche Seiten oder Verzeichnisse sie crawlen und welche sie ignorieren sollen. So kannst du steuern, welche Inhalte in den Suchmaschinenindex aufgenommen werden.

Warum ist sie wichtig?

  • Unnötiges Crawlen verhindern: Schütze sensible Bereiche wie Admin-Seiten oder temporäre Inhalte.
  • Crawl-Budget optimieren: Suchmaschinen haben ein begrenztes Crawl-Budget. Lenke sie auf die wichtigen Seiten.
  • Duplicate Content vermeiden: Halte doppelte Inhalte (z. B. Parameter-URLs) aus dem Index fern.
  • Veraltete Seiten ausschließen: Entferne nicht mehr relevante Bereiche, etwa alte Sprachversionen, aus dem Crawling.

Wie erstellt man eine robots.txt?

Die robots.txt wird im Stammverzeichnis deiner Website platziert, erreichbar unter https://deinedomain.de/robots.txt. So gehst du vor:

  1. Öffne einen Texteditor (z. B. Notepad, VS Code).
  2. Schreibe die Anweisungen (siehe unten).
  3. Speichere die Datei als robots.txt.
  4. Lade sie per FTP oder über den File Manager deines Hosting-Providers hoch.

Wichtige Anweisungen in der robots.txt

Hier sind die gängigsten Befehle:

  • User-agent
    Definiert, für welchen Crawler die Regeln gelten.
    Beispiel:
				
					User-agent: *
				
			

(* = alle Crawler)

  • Disallow
    Verbietet das Crawlen bestimmter Bereiche.
				
					Disallow: /admin/
				
			
  • Allow
    Erlaubt das Crawlen in ansonsten gesperrten Bereichen.
				
					Allow: /blog/
				
			
  • Sitemap
    Zeigt die URL deiner XML-Sitemap.

				
					Sitemap: https://deinedomain.de/sitemap.xml
				
			
  • Wildcard
    Platzhalter wie * oder $ für flexible Regeln.

				
					Disallow: /private/*    # Blockiert alles unter /private/
Disallow: /*.pdf$       # Blockiert alle PDFs
				
			

Hinweis: Die Noindex-Anweisung gehört nicht in die robots.txt, da Google sie ignoriert. Nutze dafür Meta-Tags auf den Seiten.

Template für eine robots.txt

Ein einfaches Beispiel:

				
					User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Allow: /wp-admin/admin-ajax.php
Sitemap: https://deinedomain.de/sitemap.xml
				
			

Beispiel: Alte Sprachversionen ausschließen

Angenommen, deine Website ist nur noch auf Deutsch verfügbar, und du hast das WPML-Plugin entfernt. Google hat jedoch alte URLs wie https://besirious.net/es/ indexiert. Mit der robots.txt kannst du diese ausschließen:

				
					User-agent: *
Disallow: /es/*
Disallow: /fr/*
Disallow: /it/*
Sitemap: https://besirious.net/sitemap.xml
				
			

Das signalisiert Google und anderen Suchmaschinen, dass diese Verzeichnisse nicht mehr gecrawlt werden sollen, und sie verschwinden aus dem Index.

robots.txt validieren

Nachdem du deine robots.txt-Datei erstellt hast, solltest du sie überprüfen, um sicherzustellen, dass sie korrekt formatiert ist und funktioniert. Dazu kannst du Tools wie den Google Search Console robots.txt-Tester.

google search console robots.txt

llms.txt: Die Schatzkarte für KI-Modelle

Neu im Fokus: Die llms.txt ist ein vorgeschlagener Standard, um Large Language Models (LLMs) wie ChatGPT oder Gemini zu den wichtigsten Inhalten deiner Website zu führen. Während robots.txt Crawler steuert, dient llms.txt als Wegweiser für KI.

Was ist die llms.txt?

Die llms.txt hilft LLMs, relevante Inhalte effizient zu finden und zu nutzen. Sie schließt die Lücke zwischen komplexen HTML-Seiten und den präzisen Informationen, die KI-Modelle brauchen.

Merkmale

  • Speicherort: Stammverzeichnis (z. B. https://deinedomain.de/llms.txt).
  • Format: Markdown, für Mensch und Maschine lesbar.
  • Struktur:
    • H1: Name der Website (Pflicht).
    • > Kurze Zusammenfassung.
    • Text: Kontext oder Details.
    • H2: Wichtige Ressourcen als [Titel](URL): Beschreibung.
    • Optional: Sekundäre Links.
				
					# Meine Website
> Eine Plattform für SEO-Tipps und KI-Entwicklungen.
Erfahre mehr über Weboptimierung.

## Wichtige Inhalte
- [SEO-Guide](https://deinedomain.de/seo): Praktische SEO-Tipps.
- [KI-Tools](https://deinedomain.de/ki): Die besten KI-Ressourcen.

## Optional
- [Archiv](https://deinedomain.de/archiv): Alte Artikel.
				
			

In diesem Fall sagst du den Crawlern, dass alle Seiten unter /es/, /fr/ und /it/ (die Sprachversionen) nicht mehr gecrawlt werden sollen. Das hilft Google dabei zu verstehen, dass diese Seiten nicht mehr existieren, und sie werden aus dem Index entfernt.

Unterschiede zu robots.txt

Merkmalllms.txtrobots.txt
ZweckLLMs zu Inhalten führenCrawling steuern
FormatMarkdownText mit Direktiven
Blockiert?NeinJa (via Disallow)
StatusExperimentellStandard

Die llms.txt blockiert nichts, sondern priorisiert Inhalte für KI-Modelle.

llms.txt Anwendungsfälle

  • Inhaltsfindung: Zeigt LLMs, wo hochwertige Inhalte liegen (z. B. Dokumentation).
  • Genauigkeit: Verbessert KI-Antworten durch besseren Kontext.
  • Einfluss: Steuert, wie deine Inhalte von KI zusammengefasst werden.

Stand 2025

Die llms.txt ist noch experimentell. Große LLM-Anbieter unterstützen sie nicht offiziell, aber sie gewinnt an Relevanz, da KI-Nutzung wächst.

Kostenloses Tool zur Erstellung der robots.txt

Wenn du nicht sicher bist, wie du deine robots.txt erstellen kannst, gibt es unser kostenloses Tool:

FAQ

Die robots.txt ist eine Textdatei, die in das Stammverzeichnis einer Website hochgeladen wird. Sie gibt Suchmaschinen-Crawlern wie Google Anweisungen, welche Seiten oder Verzeichnisse sie crawlen dürfen und welche nicht.

Mit der robots.txt kannst du Suchmaschinen daran hindern, unnötige oder irrelevante Seiten deiner Website zu crawlen. Dies spart Crawl-Budget und hilft, den Fokus auf die wichtigen Seiten deiner Website zu legen, was die SEO-Performance verbessert.

Du kannst eine robots.txt-Datei in einem einfachen Texteditor (z. B. Notepad) erstellen. Nach dem Erstellen der Datei lädst du sie über ein FTP-Programm oder den Dateimanager deines Hosting-Providers ins Stammverzeichnis deiner Website hoch.

Die robots.txt sollte Anweisungen enthalten, wie Disallow für Bereiche, die nicht gecrawlt werden sollen, und Allow für Seiten, die explizit gecrawlt werden dürfen. Außerdem kannst du die URL deiner Sitemap angeben.

Ja, mit der Disallow-Anweisung in der robots.txt kannst du bestimmte Seiten oder ganze Verzeichnisse vom Crawling ausschließen.

Du kannst die robots.txt in der Google Search Console oder mit einem robots.txt-Tester überprüfen, um sicherzustellen, dass sie korrekt funktioniert und die gewünschten Anweisungen gibt.

Wenn du eine Seite mit der Disallow-Anweisung blockierst, wird sie von Suchmaschinen nicht gecrawlt. Das bedeutet, dass sie nicht in den Suchergebnissen erscheint oder entfernt wird, falls sie zuvor indexiert wurde.

Die llms.txt dient dazu, Large Language Models (LLMs) wie ChatGPT oder Gemini zu den wichtigsten und relevantesten Inhalten einer Website zu führen. Anders als die robots.txt, die das Crawlen steuert, priorisiert llms.txt Inhalte, um KI-Modellen zu helfen, präzise und kontextreiche Antworten zu generieren.

Die llms.txt wird im Markdown-Format erstellt, um sie für Menschen und Maschinen lesbar zu machen. Sie wird im Stammverzeichnis der Website abgelegt, erreichbar unter https://deinedomain.de/llms.txt.

Eine llms.txt enthält:

  • Eine H1-Überschrift mit dem Namen der Website (Pflicht).
  • Eine Blockquote mit einer kurzen Zusammenfassung.
  • Textabschnitte für Kontext oder Details.
  • H2-Überschriften für wichtige Ressourcen als [Titel](URL): Beschreibung.
  • Einen optionalen „Optional“-Abschnitt für sekundäre Inhalte.
    Beispiel:

Schluss mit komplizierten KI-Anfragen! Unsere „Promptbibliothek“ liefert dir 141 sofort anwendbare Befehle, mit denen du ChatGPT mühelos für kreative Projekte, effiziente Workflows und geschäftlichen Erfolg nutzen kannst – auch ohne Vorkenntnisse.

Was macht eine Software für Sie unverzichtbar? Nehmen Sie an unserer kurzen Umfrage teil.