Suchmaschinen-Grundlagen

10 Min. Lesezeit

Wie Google Online-Shops findet

Bevor Google Ihre Produkte ranken kann, muss es sie erst entdecken. Zu verstehen, wie Googlebot Ecommerce-Websites navigiert, zeigt, warum manche Shops Tausende Seiten indexiert bekommen, während andere Schwierigkeiten haben, selbst ihre Hauptkategorieseiten bemerkt zu bekommen.

VonFabian van Til— SEO Lead, EcomSEO
·
Zuletzt geprueft:

Wie Googlebot Ecommerce-Seiten crawlt

Googlebot ist die Software, die Google zum Abrufen von Webseiten verwendet. Sie funktioniert, indem sie Links von einer Seite zur nächsten folgt, ähnlich wie ein Käufer, der durch Ihren Shop klickt. Wenn sie auf einer Seite landet, liest sie das HTML, folgt den gefundenen Links und fügt neu entdeckte URLs zu ihrer Crawl-Warteschlange hinzu.

Für Ecommerce-Seiten stößt dieser Crawling-Prozess schnell auf Komplikationen. Eine Startseite verlinkt möglicherweise auf 15 Kategorieseiten, von denen jede auf 20 Unterkategorien verlinkt, die jeweils 40 Produkte auflisten. Das sind bereits 12.000 Produktseiten, die über einen einzigen Crawl-Pfad entdeckt werden. Aber Googlebot hat keine unbegrenzten Ressourcen. Google weist jeder Website ein Crawl-Budget basierend auf der Autorität und Serverkapazität der Website zu.

Ein mittelgroßer Shop mit moderater Domain-Autorität sieht möglicherweise, dass Googlebot 5.000 bis 15.000 Seiten pro Tag abruft. Wenn Ihr Shop 80.000 URLs inklusive gefilterter Ansichten und Paginierung hat, kann es Wochen dauern, bis Googlebot jede Seite einmal besucht hat. Deshalb ist Crawl-Effizienz für Ecommerce so wichtig. Jede URL, die Googlebot für eine wertlose Filterseite verschwendet, ist eine URL, die nicht für eine Produktseite verwendet wurde, die Sie tatsächlich ranken lassen möchten. Erfahren Sie mehr in unserem Leitfaden zu Crawling und Indexierung von Produktseiten.

Crawl-Budget-Mathematik

15 Kategorien × 20 Unterkategorien × 40 Produkte = 12.000 Produktseiten über einen Crawl-Pfad. Fügt man gefilterte Ansichten und Paginierung hinzu, kann ein Shop mit 50.000 SKUs leicht 200.000+ crawlbare URLs erzeugen.

Diagramm das zeigt, wie Googlebot einen Ecommerce-Shop von der Startseite über Kategorien zu Produktseiten crawlt
Googlebot folgt Links von der Startseite zu Kategorien zu Produkten. Seiten tiefer in der Hierarchie werden seltener gecrawlt.
Googlebot folgt Links von Seite zu Seite, um URLs zu entdecken
Jede Website bekommt ein Crawl-Budget basierend auf Autorität und Servergeschwindigkeit
Große Shops benötigen möglicherweise Wochen für vollständige Crawl-Abdeckung
Wertlose Seiten verbrauchen Budget, das für Produktseiten genutzt werden könnte

Die Crawl-Warteschlange und das Prioritätssystem

Googlebot crawlt nicht alle Seiten gleich. Es pflegt eine Prioritätswarteschlange, die bestimmt, welche URLs zuerst gecrawlt und wie oft sie erneut besucht werden. Seiten, die sich häufig ändern, mehr interne Links erhalten oder höhere Autorität haben, werden öfter gecrawlt.

Ihre Startseite wird möglicherweise mehrmals täglich gecrawlt. Kategorie-Hauptseiten werden täglich oder alle paar Tage gecrawlt. Einzelne Produktseiten tiefer in der Seitenstruktur werden möglicherweise nur alle paar Wochen gecrawlt. Für ein saisonales Produkt, das gerade gestartet wurde, kann diese Verzögerung bedeuten, dass wochenlang potentieller Suchtraffic verpasst wird.

Wir können die Crawl-Priorität durch interne Verlinkung beeinflussen. Eine Produktseite, die von Ihrer Startseite, einer Kategorieseite und drei Blogbeiträgen verlinkt wird, wird früher und häufiger gecrawlt als eine, die nur über zwei Ebenen der Kategorienavigation erreichbar ist. Deshalb ist strategische interne Verlinkung eine der wirkungsvollsten SEO-Taktiken für Shops.

Tip

Prüfen Sie Ihre Crawl-Statistiken in der Google Search Console unter Einstellungen > Crawling-Statistiken. Wenn die durchschnittliche Antwortzeit 500 ms überschreitet, kann Ihre Servergeschwindigkeit begrenzen, wie viele Seiten Googlebot pro Tag crawlt.

JavaScript-Rendering und Ecommerce-Plattformen

Viele moderne Ecommerce-Plattformen verwenden JavaScript, um Produktinformationen, Preise und Bewertungen zu laden. Shopify-Themes, React-basierte Headless-Shops und einige WooCommerce-Setups verlassen sich stark auf clientseitiges Rendering. Das schafft eine Herausforderung, weil Googlebot in zwei Phasen crawlt.

In der ersten Phase ruft Googlebot das rohe HTML ab. Wenn Ihr Produkttitel, Ihre Beschreibung und Ihr Preis über JavaScript nach dem Seitenrendering geladen werden, liefert dieser erste HTML-Abruf eine leere Hülle. Google reiht die Seite dann für eine zweite Rendering-Phase ein, in der JavaScript ausgeführt wird. Diese Rendering-Warteschlange kann Tage oder sogar Wochen Verzögerung hinzufügen, bevor Google Ihren tatsächlichen Inhalt sieht.

Shopify-Shops, die das Standard-Liquid-Templating-System verwenden, vermeiden dieses Problem generell, da Produktdaten serverseitig gerendert werden. Aber Shops, die Headless-Commerce-Setups mit Frameworks wie Next.js oder Nuxt verwenden, müssen serverseitiges Rendering (SSR) oder statische Seitengenerierung (SSG) implementieren, um sicherzustellen, dass Googlebot den Produktinhalt beim ersten Abruf sieht.

Wir haben Shops auditiert, bei denen 30 % der Produktseiten nicht indexiert waren, weil das Produkt-Schema-Markup, die Bewertungen und sogar der Produkttitel alle über JavaScript geladen wurden, das Googlebot nicht rendern konnte. Der Wechsel zu serverseitigem Rendering hat die Indexierung innerhalb von drei Wochen korrigiert. Unser Leitfaden zu technische SEO für Ecommerce behandelt dies im Detail.

Praxisfall

Wir auditierten einen Shop, bei dem 30 % der Produktseiten nicht indexiert waren. Produkttitel, Schema-Markup und Bewertungen wurden alle über JavaScript geladen. Wechsel zu serverseitigem Rendering hat die Indexierung innerhalb von 3 Wochen behoben.

Diagramm das Googles zweiphasigen Rendering-Prozess für JavaScript-lastige Seiten zeigt
Phase 1 ruft rohes HTML ab (oft leer für JS-Seiten). Phase 2 rendert JavaScript, kann aber um Tage oder Wochen verzögert sein.
Googlebot crawlt in zwei Phasen: HTML-Abruf, dann JavaScript-Rendering
Die Rendering-Warteschlange kann die Inhaltsentdeckung um Tage oder Wochen verzögern
Standard-Shopify-Liquid-Templates rendern standardmäßig serverseitig
Headless-Setups benötigen SSR oder SSG für zuverlässige Indexierung
Testen Sie Ihre Seiten mit dem URL-Prüftool, um zu sehen, was Google rendert

XML-Sitemaps für die Produktentdeckung

Eine XML-Sitemap ist eine Datei, die die URLs auflistet, die Google kennen soll. Für Ecommerce-Seiten dienen Sitemaps als direkter Kanal, um Google mitzuteilen, welche Seiten existieren, wann sie zuletzt aktualisiert wurden und wie häufig sie sich ändern.

Eine gut strukturierte Ecommerce-Sitemap-Strategie verwendet mehrere Sitemap-Dateien. Eine Sitemap für Produktseiten, eine weitere für Kategorieseiten, eine für Blog-Inhalte und eine für statische Seiten wie Ihre Über-uns-Seite und Versandrichtlinie. Diese Trennung ermöglicht es Ihnen, die Indexierung nach Seitentyp in der Search Console zu überwachen.

Wir empfehlen typischerweise, nur kanonische, indexierbare Seiten in Ihre Sitemaps aufzunehmen. Gefilterte URLs, nicht vorrätige Produktseiten, die auf noindex gesetzt sind, und paginierte Listenseiten jenseits von Seite eins sollten ausgeschlossen werden. Eine Sitemap, die 200.000 URLs auflistet, obwohl nur 30.000 indexierbar sind, sendet ein verwirrendes Signal an Google über die Qualität Ihrer Website.

Die meisten Ecommerce-Plattformen generieren Sitemaps automatisch. Shopify erstellt eine sitemap.xml, die Produkte, Kollektionen, Seiten und Blogbeiträge enthält. WooCommerce mit Yoast SEO oder RankMath generiert Sitemaps mit mehr Konfigurationsoptionen. Unabhängig von der Plattform sollten Sie Ihre Sitemap monatlich überprüfen, um sicherzustellen, dass sie Ihre aktuelle Seitenstruktur widerspiegelt.

Sitemap-Struktur Beispiel

sitemap-produkte.xml (30.000 URLs) + sitemap-kategorien.xml (200 URLs) + sitemap-blog.xml (150 URLs) + sitemap-seiten.xml (20 URLs). Separate Dateien ermöglichen das Tracking der Indexierung nach Content-Typ in der Search Console.

Tip

Reichen Sie Ihre Sitemaps in der Google Search Console ein und prüfen Sie den Abdeckungsbericht nach zwei Wochen. Wenn das Verhältnis von indexierten zu eingereichten Seiten unter 70 % liegt, untersuchen Sie, warum Google sich entscheidet, einen erheblichen Teil Ihrer eingereichten URLs nicht zu indexieren.

Häufige Entdeckungsprobleme im Ecommerce

Das häufigste Entdeckungsproblem, das wir sehen, sind Shops, die Googlebot den Zugriff auf wesentliche Ressourcen in ihrer robots.txt-Datei blockieren. Einige WooCommerce-Installationen blockieren das /wp-admin/-Verzeichnis, was korrekt ist, aber versehentlich auch CSS- und JavaScript-Dateien blockieren, die Googlebot zum korrekten Rendern von Seiten benötigt.

Ein weiteres häufiges Problem sind endlose Crawl-Fallen durch facettierte Navigation. Ein Bekleidungsgeschäft, das Benutzern erlaubt, Größe, Farbe, Material, Marke und Preisfilter zu kombinieren, kann Millionen einzigartiger URLs erzeugen. Ohne angemessene Kontrollen kann Googlebot sein gesamtes Crawl-Budget damit verbringen, diese Filterkombinationen zu erkunden, während es nie tiefe Produktseiten erreicht.

Session-basierte URLs verursachen ebenfalls Probleme. Einige Ecommerce-Plattformen hängen Session-IDs oder Tracking-Parameter an URLs an, wodurch Tausende scheinbar doppelter Seiten entstehen. Jeder Besuch von Googlebot generiert eine neue URL-Variante, die Crawl-Budget für Seiten verschwendet, die alle identischen Inhalt haben.

Paginierung kann die Entdeckung ebenfalls verlangsamen. Wenn Ihre Kategorieseite 500 Produkte auf 25 paginierten Seiten auflistet, muss Googlebot durch Seite 1, Seite 2, Seite 3 und so weiter crawlen, um alle Produkte zu entdecken. Produkte auf Seite 20 benötigen möglicherweise deutlich länger für Entdeckung und Indexierung als solche auf Seite 1.

Prüfen Sie die robots.txt, um sicherzustellen, dass CSS- und JS-Dateien nicht blockiert sind
Implementieren Sie Kontrollen für facettierte Navigation, um Crawl-Fallen zu verhindern
Verwenden Sie Canonical-Tags für Session-IDs und Tracking-Parameter
Erwägen Sie, mehr Produkte pro Seite zu laden, um die Paginierungstiefe zu reduzieren

In Googles Indexierungs-Pipeline: Trawler, Alexandria und Mustang

Das Content Warehouse Leak 2024 hat die Systeme benannt, die Ihren Shop von der URL zum gerankten Ergebnis fuehren. Trawler crawlt und holt Seiten ab. Alexandria indexiert sie. Mustang fuehrt dann initiales Scoring (den Ascorer) mit Hunderten von Features durch, bevor Twiddler die Ergebnisse neu ranken. Jede Produktseite Ihres Shops durchlaeuft jede Stufe.

Fuer Shops bedeutet die Pipeline-Implikation, dass Crawl-Prioritaets-Signale (Link-Equity, Frische, interne Link-Tiefe) entscheiden, wie oft Trawler eine URL erneut besucht. Seiten, die mehr als 4 Klicks tief vergraben sind, ohne eingehende interne Links und mit veralteten lastmod-Daten, werden selten gecrawlt - und Aenderungen, die Sie an ihnen vornehmen, brauchen viel laenger, um in den Rankings sichtbar zu werden. Das hostAge-Attribut im Leak bestaetigt auch die lange vermutete "Sandbox": Neue Domains unter ~12 Monaten sehen begrenzte Sichtbarkeit unabhaengig von der Optimierung.

Indexierung ist auch nicht binaer. Alexandria kann eine URL indexieren, ohne sie anzuzeigen (Google Search Console markiert diese als "Gecrawlt - derzeit nicht indexiert"), und die Wahl wird durch Qualitaetssignale beeinflusst, die bereits zur Indexierungszeit berechnet werden. Die Erkenntnis fuer E-Commerce: Behandeln Sie Crawl-Architektur und die technische Basis als tragend - sie entscheiden, welche Ihrer Seiten ueberhaupt zur Scoring-Stufe gelangen.

Trawler -> Alexandria -> Mustang -> Twiddler ist die tatsaechliche im Leak offengelegte Ranking-Kette
Trawler-Revisit-Frequenz haengt von Link-Equity, Frische und interner Link-Tiefe ab - PDPs vergraben und Updates landen Wochen spaeter
Alexandria kann ohne Auslieferung indexieren; Qualitaetssignale zur Indexierungszeit entscheiden, was angezeigt werden darf
hostAge bestaetigt den Sandbox-Effekt: Domains unter ~12 Monaten sehen begrenzte Sichtbarkeit

Arbeiten Sie mit SEO-Experten zusammen, die E-Commerce verstehen

Die weltweit erste von E-Com-Gründern aufgebaute SEO-Agentur

Wie Google Online-Shops findet - EcomSEO Akademie | EcomSEO