Technisches SEO

12 Min. Lesezeit

Robots.txt und XML-Sitemaps

Ihre robots.txt-Datei und XML-Sitemaps sind zwei der grundlegendsten technischen SEO-Dateien in Ihrem Ecommerce-Shop. Gemeinsam kontrollieren sie, was Suchmaschinen crawlen koennen, und bieten eine Karte der Seiten, die Sie indexiert haben moechten. Wenn Sie diese falsch konfigurieren, koennen Sie Ihre besten Produkte vor Google verstecken oder den Index mit wertlosen Filterseiten ueberfluten, die Ihre Rankings kannibalisieren.

Robots.txt-Grundlagen fuer Ecommerce

Die robots.txt-Datei befindet sich im Stammverzeichnis Ihrer Domain (example.com/robots.txt) und gibt Crawling-Anweisungen an Suchmaschinen-Bots. Sie verwendet eine einfache Syntax: User-agent gibt an, fuer welchen Bot die Regeln gelten, Disallow blockiert bestimmte URL-Pfade vom Crawling, und Allow ueberschreibt ein Disallow fuer bestimmte Unterpfade. Die Datei ist oeffentlich zugaenglich, verwenden Sie sie daher nie, um sensible Inhalte zu verstecken.

Fuer Ecommerce-Shops spielt robots.txt eine entscheidende Rolle bei der Verwaltung des Crawl-Budgets. Ohne Einschraenkungen versuchen Bots, jede auffindbare URL auf Ihrer Website zu crawlen, einschliesslich Warenkorb-Seiten, Checkout-Ablaeufe, Kontobereich-Seiten, interne Suchergebnisse und Tausende facettierter Navigations-URLs. Diese Seiten verschwenden Crawl-Budget und koennen Probleme mit doppeltem Inhalt verursachen, wenn sie indexiert werden.

Ein verbreiteter Irrtum ist, dass robots.txt die Indexierung verhindert. Das tut sie nicht. Robots.txt verhindert nur das Crawling. Wenn eine andere Seite auf eine blockierte URL verlinkt, kann Google diese URL trotzdem basierend auf dem Ankertext und dem umgebenden Kontext indexieren und sie in den Suchergebnissen mit der Meldung "Fuer diese Seite sind keine Informationen verfuegbar" anzeigen.

Jeder Ecommerce-Shop sollte seine robots.txt-Datei mit dem robots.txt-Tester-Tool in der Google Search Console testen, bevor Aenderungen implementiert werden. Ein einzelner fehlplatzierter Platzhalter oder eine zu breite Disallow-Regel kann versehentlich Ihren gesamten Produktkatalog vom Crawling blockieren.

Robots.txt befindet sich im Stammverzeichnis Ihrer Domain und kontrolliert, welche URLs Bots crawlen koennen
User-agent, Disallow und Allow sind die drei Kern-Direktiven
Robots.txt verhindert Crawling, nicht Indexierung; blockierte Seiten koennen trotzdem in Suchergebnissen erscheinen
Testen Sie robots.txt-Aenderungen immer in der Google Search Console, bevor Sie sie implementieren
Tip

Bewahren Sie eine Sicherungskopie Ihrer robots.txt auf, bevor Sie Aenderungen vornehmen. Eine fehlerhafte robots.txt, die versehentlich alles blockiert (Disallow: /), kann innerhalb von Tagen zu katastrophalem Verlust von organischem Traffic fuehren.

Essentielle Robots.txt-Regeln fuer Online-Shops

Jede Ecommerce-robots.txt sollte mehrere Kategorien von wertlosen URLs blockieren. Warenkorb- und Checkout-Seiten (/cart, /checkout, /account) bieten keinen SEO-Wert und enthalten benutzerspezifische Inhalte, die nie indexiert werden sollten. Interne Suchergebnis-Seiten (/search?q=) erzeugen Tausende Thin-Content-Seiten, die Ihre Kategorielisten duplizieren und zu Keyword-Kannibalisierung fuehren koennen.

Facettierte Navigationsparameter stellen die groesste Quelle fuer Crawl-Verschwendung in den meisten Shops dar. Regeln wie Disallow: /*?color=, Disallow: /*?size=, Disallow: /*?brand= und Disallow: /*?sort= verhindern, dass Bots die kombinatorische Explosion von Filter-URLs crawlen. Seien Sie strategisch bei der Auswahl, welche Parameter blockiert werden. Wenn Ihr Shop starke SEO-optimierte Seiten fuer bestimmte Marken hat (wie /schuhe/nike/), blockieren Sie den Markenparameter nicht global.

Sortierparameter sollten immer blockiert werden. URLs wie /kategorie?sort=preis-aufsteigend und /kategorie?sort=neueste zeigen die gleichen Produkte in anderer Reihenfolge und fuegen null einzigartigen Inhalt hinzu. Ebenso kann Paginierung jenseits einer angemessenen Tiefe eingeschraenkt werden. Sortiervarianten paginierter Seiten sind reine Duplikation.

Fuegen Sie immer eine Sitemap-Direktive am Ende Ihrer robots.txt ein, die auf Ihre XML-Sitemap verweist. Dies hilft Suchmaschinen, Ihre Sitemap zu finden. Das Format ist einfach: Sitemap: https://www.example.com/sitemap.xml. Sie koennen mehrere Sitemaps auflisten, wenn Sie eine Sitemap-Indexdatei verwenden.

Warenkorb-, Checkout- und Kontobereich-Seiten vom Crawling blockieren
Interne Suchergebnis-URLs blockieren, um Thin-Content-Indexierung zu verhindern
Facettierte Navigationsparameter selektiv blockieren, wertvolle SEO-Filterseiten beibehalten
Sortierparameter immer blockieren, da sie null einzigartigen Inhalt erzeugen
Ihre Sitemap-URL am Ende der robots.txt zur Entdeckung einfuegen
Tip

Verwenden Sie Platzhalter-Muster vorsichtig. Disallow: /*? wuerde alle URLs mit beliebigen Abfrageparametern blockieren, einschliesslich potenziell wertvoller. Blockieren Sie stattdessen spezifische Parameternamen einzeln.

XML-Sitemap-Struktur fuer Produktkataloge

Eine XML-Sitemap ist eine strukturierte Datei, die die URLs auflistet, die Suchmaschinen entdecken und indexieren sollen. Fuer Ecommerce-Shops mit grossen Produktkatalogen ist die richtige Sitemap-Architektur entscheidend, da sie direkt beeinflusst, welche Seiten Google beim Crawling und der Indexierung priorisiert.

Verwenden Sie eine Sitemap-Indexdatei als primaere Sitemap, die auf mehrere untergeordnete Sitemaps verweist, organisiert nach Inhaltstyp. Eine typische Ecommerce-Sitemap-Struktur umfasst separate Sitemaps fuer Produktseiten (sitemap-products.xml), Kategorieseiten (sitemap-categories.xml), Blogbeitraege (sitemap-blog.xml) und statische Seiten (sitemap-pages.xml). Diese Organisation erleichtert die Verwaltung und hilft Ihnen, Probleme mit bestimmten Inhaltstypen zu identifizieren.

Jede XML-Sitemap hat ein Limit von 50.000 URLs und 50 MB unkomprimierter Dateigroesse. Fuer Shops mit mehr als 50.000 Produkten teilen Sie Ihre Produkt-Sitemap in mehrere Dateien auf, idealerweise nach Kategorie oder Abteilung organisiert: sitemap-products-schuhe.xml, sitemap-products-kleidung.xml usw. Diese logische Gruppierung erleichtert die Verfolgung der Indexierungsraten pro Produktkategorie in der Google Search Console.

Jede URL in Ihrer Sitemap sollte die kanonische Version dieser Seite sein. Fuegen Sie niemals URLs ein, die weiterleiten, 404-Fehler zurueckgeben, noindex-Tags haben oder durch robots.txt blockiert sind. Solche URLs verschwenden Googles Crawling-Aufwand und untergraben das Vertrauen in die Genauigkeit Ihrer Sitemap.

Verwenden Sie eine Sitemap-Indexdatei, die auf separate untergeordnete Sitemaps nach Inhaltstyp verweist
Respektieren Sie das Limit von 50.000 URLs und 50 MB pro Sitemap-Datei
Teilen Sie grosse Produktkataloge in kategoriebasierte Sitemap-Dateien auf
Fuegen Sie nur kanonische, indexierbare URLs ein, die Statuscode 200 zurueckgeben
Fuegen Sie niemals weitergeleitete, noindexed oder robots.txt-blockierte URLs in Sitemaps ein
Tip

Reichen Sie Ihre Sitemap ueber die Google Search Console ein und pruefen Sie den Abdeckungsbericht regelmaessig. GSC zeigt Ihnen genau, wie viele URLs aus Ihrer Sitemap indexiert, ausgeschlossen oder fehlerhaft waren.

Lastmod, Priority und Changefreq: Was wirklich zaehlt

XML-Sitemaps unterstuetzen mehrere optionale Attribute fuer jede URL: lastmod (Datum der letzten Aenderung), priority (relative Wichtigkeit von 0,0 bis 1,0) und changefreq (erwartete Aenderungshaeufigkeit). In der Praxis liefert nur lastmod einen bedeutungsvollen Wert. Google hat oeffentlich erklaert, dass es die Attribute priority und changefreq vollstaendig ignoriert, weil Webmaster sie so oft falsch setzen, dass sie kein zuverlaessiges Signal tragen.

Das lastmod-Attribut teilt Suchmaschinen mit, wann der Inhalt einer Seite zuletzt inhaltlich aktualisiert wurde. Dies ist ein echtes Signal, das Google zur Priorisierung des Recrawlings verwendet. Wenn Sie den Preis, die Verfuegbarkeit, die Beschreibung oder die Bilder eines Produkts aktualisieren, sollte das lastmod-Datum diese Aenderung widerspiegeln.

Der kritische Fehler, den viele Shops machen, ist, lastmod bei jeder Sitemap-Regenerierung auf das aktuelle Datum fuer alle Seiten zu setzen. Wenn Ihre Sitemap naechtlich neu erstellt wird und jede URL mit dem heutigen Datum versieht, lernt Google schnell, dass Ihre lastmod-Daten bedeutungslos sind. Wir haben Shops auditiert, bei denen allein die Korrektur ungenauer lastmod-Daten zu 30 % schnellerer Indexierung von Produktaktualisierungen fuehrte.

Fuer Ecommerce koppeln Sie lastmod an tatsaechliche Datenaenderungen in Ihrem Produktinformations-Management-System. Wenn sich Lagerbestaende aendern, Preise aktualisiert werden, neue Bewertungen gepostet werden oder Produktbeschreibungen bearbeitet werden, aktualisieren Sie das lastmod-Datum fuer diese spezifischen Produkt-URLs.

Lastmod ist das einzige Sitemap-Attribut, das Google tatsaechlich als Crawling-Signal nutzt
Google ignoriert oeffentlich die von Webmastern gesetzten Priority- und Changefreq-Werte
Alle lastmod-Daten auf das aktuelle Datum zu setzen zerstoert das Signal fuer Google
Koppeln Sie lastmod-Daten an echte Inhaltsaenderungen: Preisupdates, neue Bewertungen, Beschreibungsbearbeitungen
Tip

Nach der Korrektur Ihrer lastmod-Implementierung ueberwachen Sie den Crawl-Statistik-Bericht in der Google Search Console. Sie sollten sehen, dass Google seinen Crawl-Fokus innerhalb von zwei bis vier Wochen auf kuerzlich aktualisierte Seiten verlagert.

Nicht vorraetige Produkte in Sitemaps verwalten

Nicht vorraetige Produkte stellen eine einzigartige Sitemap-Herausforderung fuer Ecommerce-Shops dar. Der richtige Ansatz haengt davon ab, ob das Produkt voruebergehend nicht verfuegbar oder dauerhaft eingestellt ist und ob die Produktseite wertvolle Backlinks und Suchautoritaet angesammelt hat.

Fuer voruebergehend nicht vorraetige Produkte, die Sie nachbestellen werden, behalten Sie die Produktseite und die Sitemap-Listung bei. Aktualisieren Sie die Seite, um deutlich zu machen, dass das Produkt derzeit nicht verfuegbar ist, und bieten Sie Alternativen oder eine Benachrichtigung bei Wiederverfuegbarkeit an. Die strukturierten Daten sollten den Nicht-vorraetig-Status widerspiegeln.

Fuer dauerhaft eingestellte Produkte ohne SEO-Wert (wenige oder keine Backlinks, minimaler organischer Traffic) entfernen Sie sie aus Ihrer Sitemap und letztendlich von der Website. Lassen Sie sie natuerlich 404 zurueckgeben. Google behandelt 404s bei Seiten ohne Autoritaet gut.

Fuer eingestellte Produkte mit signifikanter Backlink-Autoritaet oder organischem Traffic implementieren Sie eine 301-Weiterleitung zum relevantesten Ersatzprodukt oder zur Kategorieseite. Entfernen Sie die eingestellte URL aus Ihrer Sitemap und fuegen Sie die Weiterleitungsziel-URL hinzu. Dies uebertraegt die angesammelte Autoritaet auf eine relevante Seite.

Lassen Sie nie Hunderte von 404-zurueckgebenden eingestellten Produkt-URLs in Ihrer Sitemap. Dies untergaebt Googles Vertrauen in die Genauigkeit Ihrer Sitemap und verschwendet Crawl-Budget. Fuehren Sie quartalsmaessige Bereinigungen durch, um alle Nicht-200-URLs aus Ihren Sitemap-Dateien zu entfernen.

Voruebergehend nicht vorraetig: in der Sitemap behalten mit aktualisiertem Verfuegbarkeitsstatus
Dauerhaft eingestellt ohne Autoritaet: aus der Sitemap entfernen, 404 zurueckgeben lassen
Eingestellt mit wertvollen Backlinks: 301-Weiterleitung zur naechstgelegenen relevanten Seite
Nie 404-URLs in Ihrer Sitemap belassen; quartalsmaessige Bereinigungen durchfuehren
Verfuegbarkeitsstatus in strukturierten Daten fuer nicht vorraetige Produkte aktualisieren
Tip

Erstellen Sie einen automatisierten Prozess, der Produkt-URLs aus Ihrer Sitemap entfernt, wenn sie fuer mehr als sieben aufeinanderfolgende Tage Nicht-200-Statuscodes zurueckgeben.

Robots.txt und Sitemaps fuer maximale Wirkung koordinieren

Robots.txt und XML-Sitemaps muessen als koordiniertes System zusammenarbeiten. Ihre robots.txt sagt Suchmaschinen, was sie nicht crawlen sollen, waehrend Ihre Sitemap ihnen sagt, was sie priorisieren sollen. Widerspruechliche Signale zwischen diesen beiden Dateien erzeugen Verwirrung und verschwendeten Aufwand.

Der haeufigste Koordinationsfehler ist, URLs in Ihrer Sitemap aufzunehmen, die durch robots.txt blockiert werden. Wenn Ihre robots.txt Disallow: /search enthaelt und Ihre Sitemap URLs wie /search?q=beliebter-begriff einschliesst, senden Sie widerspruechliche Signale. Bereinigen Sie Ihre Sitemap, um null Ueberlappung mit robots.txt-Disallow-Regeln sicherzustellen.

Ein zweites Koordinationsproblem betrifft kanonische URLs. Ihre Sitemap sollte nur die kanonische Version jeder URL enthalten. Wenn ein Produkt sowohl unter /products/schuhe als auch unter /kategorie/fussbekleidung?product=schuhe zugaenglich ist, sollte nur die kanonische URL in der Sitemap erscheinen.

Fuer grosse Ecommerce-Sites erstellen Sie eine gestufte Crawling-Strategie. Verwenden Sie robots.txt, um URL-Muster zu blockieren, die nie gecrawlt werden sollen (Filter, Sortierungen, Sessions). Verwenden Sie Sitemaps, um proaktiv zu erklaeren, welche URLs am wichtigsten und am aktuellsten sind. Verwenden Sie interne Verlinkung, um die Crawl-Prioritaet fuer Ihre wertvollsten Produkt- und Kategorieseiten zu verstaerken.

Ueberwachen Sie schliesslich beide Dateien kontinuierlich. Richten Sie Benachrichtigungen fuer Aenderungen an Ihrer robots.txt ein und planen Sie woechentliche Sitemap-Validierung, um URLs zu erkennen, die Fehler zurueckgeben. Ein Deployment, das versehentlich robots.txt aendert oder die Sitemap-Generierung bricht, kann Wochen zur Erholung benoetigen.

Fuegen Sie nie URLs in Ihre Sitemap ein, die durch robots.txt blockiert sind
Fuegen Sie nur kanonische URL-Versionen in Ihre Sitemap ein
Verwenden Sie robots.txt zum Blockieren, Sitemaps zum Priorisieren und interne Links zum Verstaerken
Ueberwachen Sie beide Dateien kontinuierlich; Plattform-Updates koennen robots.txt stillschweigend aendern
Planen Sie woechentliche Sitemap-Validierung, um neu fehlerhafte URLs zu erkennen
Tip

Nach jedem Plattform-Update oder Theme-Wechsel ueberpruefen Sie sofort Ihre robots.txt und regenerieren Sie Ihre Sitemap. Vergleichen Sie beide Dateien, um sicherzustellen, dass keine Sitemap-URLs blockiert sind und keine kritischen Seiten in der Sitemap fehlen.

Arbeiten Sie mit SEO-Experten zusammen, die E-Commerce verstehen

Die weltweit erste von E-Com-Gründern aufgebaute SEO-Agentur

Robots.txt und XML-Sitemaps - EcomSEO Academy | EcomSEO