Sitemap XML und robots.txt für besseres Crawling und SEO
Technisches SEO 6 Min. Lesezeit

Sitemap und robots.txt erklärt: Google richtig steuern

Was Sitemap.xml und robots.txt sind, wie sie funktionieren und wie Sie Google damit sagen, welche Seiten gecrawlt und indexiert werden sollen — mit Beispielen für Magdeburg.

Arnold Wender

Arnold Wender

SEO-Experte & Geschäftsführer

Inhaltsverzeichnis

Sitemap.xml und robots.txt sind zwei der grundlegendsten technischen SEO-Dateien. Zusammen steuern sie, wie Google Ihre Website crawlt und welche Inhalte indexiert werden. Bei Audit-Mandaten in Magdeburg — von Mittelständlern in Buckau bis zu Tourismus-Sites am Dom — finden wir mindestens in jedem zweiten Projekt grobe Konfigurationsfehler. Falsch konfiguriert, können diese Dateien Rankings komplett verhindern — das Aufdecken solcher Fehler gehört zur technischen SEO-Betreuung.

Was ist eine Sitemap.xml?

Eine Sitemap ist eine XML-Datei, die alle URLs Ihrer Website auflistet, die Google indexieren soll. Sie ist wie ein Inhaltsverzeichnis für den Googlebot.

Wozu brauche ich eine Sitemap?

  • Neue Seiten werden schneller entdeckt und indexiert
  • Google versteht, welche Seiten Sie für wichtig halten
  • Hilft bei großen Websites mit vielen Seiten
  • Notwendig wenn Ihre interne Verlinkung lueckenhaft ist

Brauchen kleine Websites eine Sitemap?

Technisch nicht zwingend — Google findet Seiten auch durch interne Links. Aber eine Sitemap schadet nie und beschleunigt die Indexierung. Empfehlung: immer erstellen.


Aufbau einer Sitemap.xml

Eine einfache Sitemap sieht so aus:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://seo-magdeburg.com/</loc>
    <lastmod>2026-03-01</lastmod>
    <changefreq>monthly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://seo-magdeburg.com/leistungen/</loc>
    <lastmod>2026-02-15</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
  <url>
    <loc>/blog/local-seo-guide/</loc>
    <lastmod>2026-03-26</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.6</priority>
  </url>
</urlset>

Die wichtigsten Felder:

FeldBedeutungPflicht
<loc>Vollstaendige URL (absolut, mit https)Ja
<lastmod>Datum der letzten Änderung (YYYY-MM-DD)Nein, aber empfohlen
<changefreq>Wie oft sich die Seite ändertNein
<priority>Relative Wichtigkeit (0.0 bis 1.0)Nein

Wichtig zu wissen: Google verwendet <changefreq> und <priority> nur als Hinweis, nicht als Pflicht. Der eigentliche Crawl-Rhythmus wird von Googles internen Signalen bestimmt.


Sitemap-Index für große Websites

Bei mehr als 50.000 URLs oder 50 MB Dateigröße brauchen Sie mehrere Sitemaps, koordiniert durch einen Sitemap-Index:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://seo-magdeburg.com/sitemap-seiten.xml</loc>
  </sitemap>
  <sitemap>
    <loc>https://seo-magdeburg.com/sitemap-blog.xml</loc>
  </sitemap>
  <sitemap>
    <loc>https://seo-magdeburg.com/sitemap-leistungen.xml</loc>
  </sitemap>
</sitemapindex>

Was gehört NICHT in die Sitemap?

Niemals in die Sitemap aufnehmen:

  • Seiten mit noindex-Meta-Tag (Widerspruch — Google ignoriert das canonical)
  • Seiten mit Disallow in robots.txt
  • 301-weiterleitende URLs (nur Ziel-URL aufnehmen)
  • 404-Seiten
  • Doppelte Inhalte (nur kanonische URL)
  • Passwort-geschuetzte Seiten
  • Thin Content / leere Kategorie-Seiten

Faustregel: In die Sitemap kommen nur Seiten, die Sie aktiv für das Ranking verwenden wollen.


Sitemap einreichen und prüfen

Google Search Console

  1. search.google.com/search-console aufrufen
  2. Links → Sitemaps
  3. URL der Sitemap eingeben (z.B. seo-magdeburg.com/sitemap-index.xml)
  4. Einreichen

Die GSC zeigt dann:

  • Anzahl der übermittelten URLs
  • Anzahl der indexierten URLs
  • Fehler (fehlende Seiten, Crawl-Fehler)

Häufiges Problem: Sitemap uebermittelt 120 URLs, aber Google hat nur 80 indexiert. Ursache: noindex auf manchen Seiten, oder Google bewertet diese Seiten als thin/doppelt. In der SEO-Analyse gleichen wir Sitemap, GSC-Report und Live-Crawl systematisch ab.


Was ist die robots.txt?

Die robots.txt ist eine Textdatei im Hauptverzeichnis Ihrer Website (ihre-domain.de/robots.txt). Sie gibt Suchmaschinen-Crawlern Anweisungen, welche Bereiche gecrawlt werden dürfen.

Wichtigster Unterschied zur Sitemap:

  • Sitemap sagt: “Diese Seiten möchte ich indexiert haben”
  • robots.txt sagt: “Diese Bereiche bitte nicht crawlen”

Aufbau einer robots.txt

# robots.txt für seo-magdeburg.com
# Letzte Aktualisierung: 2026-03-26

User-agent: *
# Admin und private Bereiche ausschließen
Disallow: /admin/
Disallow: /intern/
Disallow: /api/
Disallow: /wp-admin/

# URL-Parameter blockieren (doppelte Inhalte vermeiden)
Disallow: /*?*sort=
Disallow: /*?*filter=
Disallow: /*?*session=

# Sitemap bekannt geben
Sitemap: https://seo-magdeburg.com/sitemap-index.xml

Die wichtigsten Direktiven:

DirektiveBedeutung
User-agent: *Gilt für alle Crawler
User-agent: GooglebotGilt nur für Google
Disallow: /pfad/Dieser Bereich soll nicht gecrawlt werden
Allow: /pfad/file.htmlAusnahme innerhalb eines Disallow-Bereichs
Sitemap: URLZeigt auf die Sitemap-Datei

Häufige robots.txt Fehler

Fehler 1: Versehentliches Disallow der gesamten Website

# GEFAEHRLICH — Blokkiert alles!
User-agent: *
Disallow: /

Passiert schnell bei Copy-Paste oder falsch konfiguriertem CMS. Folge: Ihre gesamte Website verschwindet aus Google. In der Google Search Console sofort sichtbar.

Fehler 2: CSS und JavaScript blockieren

# FALSCH — Google kann Ihre Seite nicht rendern
Disallow: /assets/
Disallow: /static/
Disallow: /css/
Disallow: /js/

Google muss CSS und JavaScript laden können, um Ihre Seite korrekt zu rendern. Wenn Google nicht rendern kann, werden Inhalte falsch indexiert oder gar nicht gefunden.

Fehler 3: robots.txt als Noindex verwenden

# Falsche Annahme!
User-agent: *
Disallow: /datenschutz/  # Das verhindert NICHT die Indexierung!

Disallow in robots.txt verhindert das Crawlen, aber NICHT die Indexierung. Wenn andere Seiten auf /datenschutz/ verlinken, kann Google diese URL trotzdem indexieren — nur ohne Inhalt. Für echten Ausschluss aus dem Index: <meta name="robots" content="noindex"> auf der Seite selbst.

Fehler 4: Vergessene Sitemap-Referenz

Ohne Sitemap-Eintrag in der robots.txt muss Google die Sitemap durch andere Wege finden. Immer angeben:

Sitemap: https://ihre-domain.de/sitemap.xml

robots.txt prüfen

Google Search Console: Einstellungen → robots.txt unter “Crawling” aufrufen und testen.

Manuell: https://ihre-domain.de/robots.txt im Browser aufrufen.

Google robots.txt Tester: In der alten Search Console verfügbar, zeigt ob bestimmte URLs blockiert werden.


Sitemap und robots.txt zusammen einsetzen

Das Zusammenspiel korrekt konfigurieren:

robots.txt:
  Disallow: /admin/
  Sitemap: https://ihre-domain.de/sitemap.xml

sitemap.xml:
  Nur öffentliche, indexierbare Seiten
  Keine URLs die in robots.txt disallowed sind

Widersprueche vermeiden:

  • URLs in der Sitemap sollten NICHT in robots.txt blockiert sein
  • Seiten mit noindex gehören NICHT in die Sitemap
  • Canonical-URLs in der Sitemap, nicht die Weiterleitung

Praxis in Magdeburg: Was schiefgeht

Drei wiederkehrende Sitemap-/robots-Fehler aus Audit-Praxis in Magdeburg:

1. Staging-Server in Google indexiert — viele Magdeburger Mittelstand-Sites haben Subdomains wie staging.firma-magdeburg.de oder dev.firma.de. Wenn die robots.txt vergessen wird oder das Theme nicht zwischen Live und Staging unterscheidet, indexiert Google die Staging-Seite. Folge: Duplicate Content mit der Live-Site, beide Versionen sinken im Ranking. Lösung: HTTP-Auth oder X-Robots-Tag: noindex als HTTP-Header auf Staging.

2. Sitemap mit Stadtteil-Doppelung — wir sehen das bei alten WordPress-Installationen aus den Bereichen Buckau, Sudenburg und Stadtfeld: die Sitemap listet sowohl /standort-magdeburg-werder/ als auch /standort-magdeburg-werder/?p=42 (Permalink-ID-Variante). Google indexiert beide, wertet beide ab. Lösung: in der WordPress-Permalink-Struktur Pretty URLs aktivieren plus 301-Redirect von der ID-Variante.

3. robots.txt blockiert /wp-content/uploads/ — bei DSGVO-getriebenen Plugin-Konfigurationen wird mitunter der gesamte Upload-Ordner gesperrt, um “Datenschutz-Sensibilität” zu signalisieren. Folge: Google kann keine Bilder indexieren, Bilder-SEO bricht weg, Local-Pack-Auftritte ohne Foto. Lösung: nur problematische Unterordner sperren (z. B. /wp-content/uploads/private/), niemals den ganzen Pfad.

Diese drei Fehler beheben wir bei jedem Audit-Mandat in Magdeburg in der ersten Stunde — die Wirkung ist häufig in 2–3 Wochen in der Search Console sichtbar.


Häufige Fragen zu Sitemap und robots.txt

Muss ich die Sitemap manuell aktualisieren?

Bei CMS-Systemen (WordPress, Shopify) und modernen Frameworks (Astro, Next.js) wird die Sitemap automatisch generiert und aktualisiert. Manuelle Pflege ist nur bei statischen HTML-Sites nötig.

Wie oft crawlt Google meine Sitemap?

Google crawlt Sitemaps unterschiedlich häufig — von täglich (bei aktiven, autoritaetsreichen Websites) bis woechentlich (bei kleinen, selten aktualisierten Seiten). Nach dem Einreichen in der GSC: schneller erster Crawl.

Kann eine falsche robots.txt meine Rankings zerstören?

Ja. Ein versehentliches Disallow: / blockiert alles. Änderungen an der robots.txt immer vor dem Upload im Google robots.txt Tester prüfen.


Fazit

Sitemap und robots.txt sind einfache Dateien mit großer Wirkung. Die Sitemap sagt Google: “Hier ist, was ich indexiert haben möchte.” Die robots.txt sagt: “Hier bitte nicht hinschauen.” Beide korrekt konfiguriert, gibt Ihrer Magdeburger Website eine klar lesbare Anweisung für Crawler — und vermeidet stille Fehler die Rankings kosten.

Möchten Sie Ihre Sitemap und robots.txt für Ihre Magdeburger Site professionell prüfen lassen? Wender Media betreut KMU in Magdeburg vom Halle-Saale-HQ — A14, kurze Wege, klare Reports. Kostenlose SEO-Analyse anfragen — wir schauen uns Ihre technische SEO-Basis an.

Arnold Wender, SEO-Experte

SEO-Experte & Geschäftsführer

Arnold Wender ist Gründer und Geschäftsführer der Werbeagentur Wender Media in Halle (Saale). Seit 2007 betreut er Unternehmen in der Landeshauptstadt Magdeburg und im gesamten Sachsen-Anhalt mit nachhaltiger Suchmaschinenoptimierung – Schwerpunkt B2B-Mittelstand, Behörden und Industrie.

Profil anzeigen