Aller au contenu
SEO-Grundlagen

XML-Sitemap und robots.txt: richtig konfigurieren

6 min

Die XML-Sitemap listet Ihre prioritären Seiten auf, um ihre Entdeckung durch Googlebot zu erleichtern. Die robots.txt-Datei kontrolliert, welche Bereiche der Roboter crawlen darf. Diese beiden Dateien ergänzen sich und müssen aktuell gehalten werden, um Indexierungsfehler zu vermeiden.

Sitemap und robots.txt sind die zwei grundlegendsten SEO-Konfigurationsdateien. Falsch konfiguriert können sie versehentlich wichtige Seiten ausschließen oder das Crawl-Budget an unnötigen URLs verschwenden.

Die XML-Sitemap: Struktur und Best Practices

Eine XML-Sitemap listet die URLs auf, die Sie indexiert haben möchten, optional ergänzt durch Metadaten (Änderungsdatum, Aktualisierungsfrequenz, Priorität). Google liest diese Metadaten, hält sich aber nicht strikt daran.

Für Websites mit mehr als 50.000 URLs oder mehr als 50 MB erstellen Sie einen Sitemap-Index, der auf mehrere thematische Sitemap-Dateien verweist (Artikel, Produkte, Kategorien).

  • Nur kanonische, indexierbare URLs mit 200-Status-Code aufnehmen.
  • Noindex-Seiten, Weiterleitungen und parametrische Seiten ausschließen.
  • Sitemap in der Search Console einreichen und in robots.txt referenzieren.
  • Sitemap bei jeder neuen Veröffentlichung automatisch aktualisieren.

Die robots.txt-Datei: Direktiven und Grenzen

Robots.txt befindet sich im Stammverzeichnis der Domain und verwendet eine einfache Syntax mit Allow- und Disallow-Regeln pro User-Agent. Sie teilt Googlebot mit, welche Teile der Website nicht gecrawlt werden sollen — garantiert aber keine Indexierungsausschluss.

Eine durch robots.txt gesperrte Seite kann immer noch in den Ergebnissen erscheinen, wenn externe Links auf sie zeigen. Für einen vollständigen Ausschluss verwenden Sie den Noindex-Tag, nicht robots.txt.

  • Verwaltungs-, Staging- und Testordner sperren.
  • Interne Such-URLs sperren, die Tausende von Variationen erzeugen.
  • Niemals CSS- und JS-Dateien sperren, die für das Seitenrendering benötigt werden.
  • Die Sitemap-URL am Ende der robots.txt-Datei referenzieren.

Kritische Fehler und deren Vermeidung

Der schwerwiegendste Fehler: die gesamte Website versehentlich mit „Disallow: /“ in robots.txt nach einer schlecht bereinigten Migration oder Staging-Konfiguration zu sperren. Überprüfen Sie diese Datei als Priorität nach jedem Deployment.

Fehler-URLs (404, 301) in die Sitemap aufzunehmen ist ein häufiger Fehler, der Google einen Mangel an Sorgfalt signalisiert und das Crawl-Budget für nicht vorhandene Ressourcen verschwendet.

Bei SEO-Audits weisen zwischen 15 und 40 % der Websites Inkonsistenzen zwischen ihrer Sitemap und den tatsächlich indizierbaren Seiten auf, oft aufgrund unzureichender Wartung nach Website-Updates.

Branchenstudien 2025-2026 zu technischen SEO-Audits

FAQ

Soll man Priorität und Frequenz in der Sitemap angeben?

Diese Tags (priority und changefreq) werden von Google weitgehend ignoriert, da es seine eigenen Signale verwendet, um die Crawl-Frequenz zu schätzen. Ihre Anwesenheit ist nicht schädlich, aber ihre Abwesenheit ist auch kein Problem.

Wie lange braucht Google, um eine eingereichte Sitemap zu lesen?

Nach der Einreichung in der Search Console liest Google die Sitemap in der Regel innerhalb von 24 bis 72 Stunden. Die Entdeckung neuer URLs und deren tatsächliche Indexierung dauern je nach Autorität der Website länger.

Funktioniert robots.txt für alle Suchmaschinen?

Alle Standard-konformen Robots respektieren robots.txt. Bösartige Robots (Scraper, nicht konforme Crawler) ignorieren es jedoch. Robots.txt ist daher kein Sicherheitswerkzeug, sondern ein Crawl-Management-Tool.