Suchmaschinen-Grundlagen

10 Min. Lesezeit

Crawling & Indexierung von Produktseiten

Dass Google Ihre Seiten crawlt, garantiert nicht, dass sie in den Suchergebnissen erscheinen. Crawling und Indexierung sind zwei getrennte Prozesse, und den Unterschied zu verstehen ist entscheidend für jeden Shop mit Tausenden von Produkt-URLs.

VonFabian van Til— SEO Lead, EcomSEO
·
Zuletzt geprueft:

Crawling vs. Indexierung: Der Unterschied, der zählt

Crawling bedeutet, dass Googlebot Ihre Seite besucht und deren Inhalt heruntergeladen hat. Indexierung bedeutet, dass Google diesen Inhalt analysiert, ihn für würdig befunden und in seinem Suchindex gespeichert hat. Eine Seite kann gecrawlt, aber nicht indexiert werden, was häufiger vorkommt, als den meisten Shop-Betreibern bewusst ist.

Stellen Sie sich Crawling so vor, als würde Google durch jeden Gang in Ihrem physischen Geschäft laufen. Indexierung ist, wenn Google entscheidet, welche Produkte es wert sind, ins Regal gestellt zu werden, damit Käufer sie finden können. Wenn eine Produktseite dünnen Content hat, eine andere Seite dupliziert oder technische Probleme aufweist, kann Google sie crawlen und dann entscheiden, dass sie keinen Platz im Index verdient.

Bei einem typischen Online-Shop mit 20.000 Produktseiten sehen wir häufig, dass 30 % bis 50 % dieser Seiten nicht indexiert werden. Das bedeutet, Tausende von Produkten sind in den Suchergebnissen unsichtbar. Die Lücke zwischen gecrawlten und indexierten Seiten ist der Bereich, in dem sich die meisten Ecommerce-SEO-Chancen verbergen.

Versteckte Chance

Für einen Shop mit 20.000 Produktseiten sind 30–50 % typischerweise nicht indexiert. Das bedeutet 6.000 bis 10.000 Produkte sind in den Suchergebnissen unsichtbar und generieren null organischen Traffic.

Trichterdiagramm das zeigt, wie 20.000 Shop-URLs sich auf nur 10.000 indexierte Seiten durch Entdeckungs-, Crawling- und Indexierungsstufen reduzieren
Ein typischer Shop verliert 50 % seiner Seiten zwischen Entdeckung und Indexierung. Jede Stufe filtert URLs aus unterschiedlichen Gründen aus.
Gecrawlt: Googlebot hat die Seite besucht und den Inhalt heruntergeladen
Indexiert: Google hat die Seite analysiert und in seiner Suchdatenbank gespeichert
Gecrawlt, aber nicht indexiert: Google hat die Seite gesehen, aber nicht aufgenommen
Nicht gecrawlt: Google hat die Seite noch nicht besucht oder bewusst übersprungen

Warum Google Produktseiten nicht indexiert

Der häufigste Grund, warum Google die Indexierung einer Produktseite verweigert, ist doppelter oder beinahe doppelter Inhalt. Wenn 500 Produkte desselben Herstellers identische Beschreibungen teilen, die sich nur im Produktnamen unterscheiden, sieht Google wenig Grund, alle 500 Versionen zu indexieren. Es wählt einige aus und ignoriert den Rest.

Dünner Content ist der zweithäufigste Grund. Eine Produktseite mit einer 20-Wörter-Beschreibung, einem Preis und einem Kaufen-Button liefert fast keine Information, die Google bewerten kann. Vergleichen Sie das mit einem Wettbewerber, dessen Produktseite eine einzigartige 300-Wörter-Beschreibung, Kundenbewertungen, Spezifikationstabellen und Nutzungsanleitungen enthält. Google wird die reichhaltigere Seite indexieren und die dünne überspringen.

Technische Signale können die Indexierung ebenfalls verhindern. Seiten, die langsam laden, Soft-404-Fehler zurückgeben, widersprüchliche Canonical-Tags haben oder durch Noindex-Anweisungen blockiert sind, werden unabhängig von ihrer Content-Qualität nie in den Index gelangen.

Signale zur Seitenqualität spielen ebenfalls eine Rolle. Wenn Ihre Website ein hohes Verhältnis von Seiten niedriger Qualität hat, kann Google die Crawl-Rate für Ihre gesamte Domain reduzieren, wodurch es auch für Ihre guten Seiten schwieriger wird, zeitnah indexiert zu werden. Effektives Crawl-Budget-Management hilft Ihnen, Googles Aufmerksamkeit auf Ihre wertvollsten Seiten zu lenken.

Doppelte oder beinahe doppelte Beschreibungen auf Produktseiten
Dünner Content mit weniger als 50 Wörtern einzigartigem Text
Langsame Seitenladezeiten über 5 Sekunden
Widersprüchliche oder falsche Canonical-Tags
Noindex-Tags versehentlich durch Plugins oder Theme-Einstellungen gesetzt
Tip

Führen Sie einen Crawl mit Screaming Frog oder Sitebulb durch und filtern Sie nach Seiten mit weniger als 100 Wörtern Fließtext. Diese dünnen Seiten sind Ihre Top-Kandidaten für Content-Verbesserung oder Konsolidierung.

Canonical-Tags und Duplicate Content im Ecommerce

Canonical-Tags teilen Google mit, welche Version einer Seite das Original ist, wenn mehrere URLs ähnlichen oder identischen Inhalt anzeigen. Für Ecommerce-Seiten ist Kanonisierung keine Option. Ohne sie muss Google raten, welche URL indexiert werden soll, und oft rät es falsch.

Produktvarianten schaffen das häufigste Canonical-Szenario. Ein blaues T-Shirt unter /products/cotton-tee?color=blue und eine rote Version unter /products/cotton-tee?color=red teilen möglicherweise 90 % ihres Seiteninhalts. Wenn es sich wirklich um dasselbe Produkt mit Farbauswahl handelt, sollten beide URLs auf die Hauptproduktseite unter /products/cotton-tee kanonisiert werden. Wenn die Farbvarianten eine spürbar unterschiedliche Suchnachfrage haben (Leute suchen speziell nach "blaues Baumwoll-T-Shirt"), können sie separate indexierte Seiten rechtfertigen.

Facettierte Navigation erzeugt noch mehr Canonical-Komplexität. Eine URL wie /shoes?size=10&color=black&brand=nike&sort=price-low ist eine von potenziell Millionen von Filterkombinationen. Diese gefilterten Ansichten sollten entweder zur Hauptkategorieseite kanonisiert oder komplett von der Indexierung ausgeschlossen werden. Die Wahl hängt davon ab, ob diese spezifische Filterkombination echte Suchnachfrage hat.

Wir sehen zwei häufige Canonical-Fehler bei Shops. Erstens zirkuläre Canonicals, bei denen Seite A auf Seite B kanonisiert und Seite B zurück auf Seite A. Zweitens die Kanonisierung aller Produktvarianten auf eine einzelne Elternseite, wenn jede Variante eigenständiges Suchvolumen hat, wodurch rankbare Seiten vor Google versteckt werden.

Index-Bloat durch Filter und Facetten verwalten

Index-Bloat tritt auf, wenn Google Tausende von wertlosen URLs indexiert, die die allgemeinen Qualitätssignale Ihrer Website verwässern. Für Ecommerce ist die Hauptquelle von Index-Bloat facettierte Navigation, die filterbare URLs erzeugt.

Betrachten Sie einen Möbelshop mit 200 Produkten in der Kategorie "Sofas". Wenn Käufer nach Farbe (10 Optionen), Material (8 Optionen), Preisspanne (5 Bereiche) und Sitzkapazität (4 Optionen) filtern können, erreichen die möglichen URL-Kombinationen 1.600, bevor Mehrfachauswahl-Filter berücksichtigt werden. Die meisten dieser gefilterten Ansichten zeigen dieselbe kleine Auswahl an Produkten in unterschiedlicher Reihenfolge.

Der Standardansatz zur Kontrolle von Index-Bloat umfasst drei Ebenen. Erstens, verwenden Sie die robots.txt, um Googlebot am Crawlen der offensichtlichsten wertlosen Filtermuster zu hindern. Zweitens, wenden Sie Noindex-Tags auf gefilterte Seiten an, die Googlebot trotzdem über andere Pfade erreichen kann. Drittens, verwenden Sie Canonical-Tags, um gefilterte Ansichten zurück auf die Hauptkategorieseite zu verweisen.

Ein gezielterer Ansatz ist, die Indexierung selektiv für Filterkombinationen zuzulassen, die echten Suchanfragen entsprechen. Wenn Menschen in nennenswerter Zahl nach "Ledersofas" suchen, könnte die URL /sofas?material=leather die Indexierung wert sein. Aber /sofas?material=leather&color=brown&seats=3 mit ziemlicher Sicherheit nicht.

Shopify-Shops handhaben dies anders als WooCommerce oder Magento, da Shopify standardmäßig keine Filter-URLs generiert. Drittanbieter-Filter-Apps wie Smart Product Filter erstellen diese URLs, und jede App handhabt Canonical-Tags und Indexierungskontrollen unterschiedlich. Überprüfen Sie immer, wie Ihre Filter-App diese technischen Details verwaltet.

Filter-Mathematik

Eine Sofa-Kategorie mit 10 Farben, 8 Materialien, 5 Preisbereichen und 4 Sitz-Optionen erzeugt 1.600 Filter-URLs. Über 20 Kategorien sind das 32.000 wertlose Seiten, die mit Ihren echten Produktseiten um das Crawl-Budget konkurrieren.

Diagramm das zeigt, wie Facettennavigationsfilter sich multiplizieren und 1.600 wertlose URLs aus einer einzigen Kategorie erzeugen
Eine einzelne Kategorie mit 4 Filtertypen kann 1.600+ URLs erzeugen. Die meisten davon sollten von der Indexierung ausgeschlossen werden.
Prüfen Sie die Anzahl indexierter URLs in der GSC im Vergleich zu beabsichtigt indexierbaren Seiten
Blockieren Sie wertlose Filtermuster in der robots.txt als erste Verteidigungslinie
Wenden Sie Noindex auf gefilterte Seiten an, die trotz robots.txt-Regeln gecrawlt werden
Indexieren Sie selektiv hochwertige Filterkombinationen mit nachgewiesener Suchnachfrage
Prüfen Sie die Einstellungen von Drittanbieter-Filter-Apps für Canonical- und Indexierungshandhabung

Indexierungsstatus in der Google Search Console prüfen

Die Google Search Console bietet zwei primäre Tools zur Überwachung der Indexierung. Der Seitenbericht (früher Abdeckungsbericht) zeigt, wie viele Ihrer Seiten indexiert sind und warum der Rest ausgeschlossen wurde. Das URL-Prüftool lässt Sie den Status einzelner Seiten überprüfen.

Im Seitenbericht konzentrieren Sie sich auf den Tab "Nicht indexiert". Google gruppiert ausgeschlossene Seiten nach Grund: "Gecrawlt - derzeit nicht indexiert", "Gefunden - derzeit nicht indexiert", "Duplikat ohne vom Nutzer ausgewähltes Canonical", "Durch noindex-Tag ausgeschlossen" und mehrere andere. Jeder Grund erfordert eine andere Lösung.

"Gecrawlt - derzeit nicht indexiert" bedeutet, Google hat die Seite besucht, sich aber entschieden, sie nicht in den Index aufzunehmen. Dies signalisiert normalerweise ein Problem mit der Content-Qualität. Den Content der Seite zu verbessern, einzigartige Beschreibungen hinzuzufügen oder sie mit Bewertungen und strukturierten Daten anzureichern, kann helfen.

"Gefunden - derzeit nicht indexiert" bedeutet, Google weiß, dass die URL existiert, hat sich aber noch nicht die Mühe gemacht, sie zu crawlen. Das deutet auf niedrige Crawl-Priorität hin, oft verursacht durch schwache interne Verlinkung oder eine zu tiefe Position in der Seitenhierarchie.

Das URL-Prüftool zeigt Ihnen genau, was Google sieht, wenn es eine bestimmte Seite crawlt. Nutzen Sie es, um zu verifizieren, dass Ihre Canonical-Tags beachtet werden, dass Ihre Seite korrekt gerendert wird und dass keine versehentlichen Noindex-Tags die Indexierung blockieren. Wir empfehlen, monatlich 10 bis 20 repräsentative Produktseiten zu prüfen, um Probleme früh zu erkennen.

Tip

Exportieren Sie die "Nicht indexiert"-Daten aus der GSC als Tabelle und kategorisieren Sie die Seiten nach Typ (Produkt, Kategorie, Filter, Blog). Dies zeigt, ob Ihre Indexierungsprobleme auf einen bestimmten Seitentyp konzentriert sind, was die Lösung gezielter macht.

Praktische Schritte zur Verbesserung der Produktseiten-Indexierung

Beginnen Sie mit einer Prüfung, welche Produktseiten derzeit indexiert sind. Verwenden Sie den site:-Operator in Google (site:ihrshop.de/products/), um eine grobe Zählung zu erhalten, und gleichen Sie diese dann mit GSC-Daten ab. Wenn weniger als 70 % Ihrer Produktseiten indexiert sind, gibt es Handlungsbedarf.

Schreiben Sie einzigartige Produktbeschreibungen zuerst für Ihre meistverkauften und margenstarksten Produkte. Diese Seiten haben das größte Umsatzpotenzial aus der organischen Suche. Schon das Hinzufügen von 150 bis 200 Wörtern einzigartigem, beschreibendem Content pro Produktseite kann den Unterschied zwischen indexiert und ignoriert ausmachen.

Konsolidieren Sie Seiten, die keinem eigenständigen Zweck dienen. Wenn Sie 30 Farbvarianten desselben Produkts haben und keiner dieser farbspezifischen Begriffe Suchvolumen hat, konsolidieren Sie sie unter einer einzigen Produktseite mit Farbauswahl. Diese eine starke Seite wird 30 dünne Seiten jedes Mal übertreffen.

Stärken Sie die interne Verlinkung zu Produktseiten, die Sie indexiert haben möchten. Verlinken Sie von verwandten Blogbeiträgen, vom Bereich für empfohlene Produkte auf der Startseite und von anderen Produktseiten über "Kunden kauften auch" oder "Verwandte Produkte"-Widgets. Jeder zusätzliche interne Link signalisiert Google, dass die Seite wichtig ist.

Halten Sie schließlich Ihre Sitemap sauber. Entfernen Sie URLs, die 404-Fehler zurückgeben, die auf Noindex gesetzt sind oder die Sie zu konsolidieren beschlossen haben. Eine schlanke Sitemap, die nur Seiten enthält, die Sie wirklich indexiert haben möchten, gibt Google ein klareres Bild Ihrer Seitenstruktur. Für einen tieferen Einblick lesen Sie unseren Leitfaden zu technische SEO für Ecommerce.

Prüfen Sie aktuelle Indexierungsraten mit GSC und dem site:-Operator
Schreiben Sie einzigartige Beschreibungen zuerst für Bestseller-Produkte
Konsolidieren Sie dünne Variantenseiten unter einzelnen starken Produktseiten
Bauen Sie interne Links von Blogbeiträgen, der Startseite und verwandten Produkten
Bereinigen Sie Ihre Sitemap, sodass sie nur wirklich indexierbare URLs enthält

CompressedQualitySignals: Der Vorfilter, den Ihre PDPs bestehen muessen

Das Content Warehouse Leak enthuellte ein Modul namens CompressedQualitySignals, das als Pro-Dokument-"Akte" fungiert. Es buendelt siteAuthority, unauthoritativeScore, lowQuality, anchorMismatchDemotion, exactMatchDomainDemotion und pandaDemotion. Dokumente, die den Vorfilter nicht bestehen, werden uebergangen, bevor teurere Ranking-Arbeit ueberhaupt laeuft.

Fuer Produktseiten aendert dies die Priorisierung. Duenne PDPs mit Template-Beschreibungen koennen das lowQuality-Flag in grosser Menge ausloesen und das gesamte Standing der Site herunterziehen. Ein Shop mit 10.000 Produkten, von denen 8.000 nur herstellergelieferte Absaetze haben, lehrt Google, dass der Katalog ueberwiegend wenig Aufwand zeigt. Der Fix ist selten "mehr keyword-reichen Text schreiben" - er ist Pruning, Konsolidierung von Varianten unter einem einzigen Canonical und Konzentration redaktionellen Aufwands auf die PDPs, die tatsaechlich Umsatz tragen.

Indexierungs-Entscheidungen folgen daraus. Google weigert sich oft, PDPs zu indexieren, die wenig hochwertig aussehen, selbst wenn sie gecrawlt sind. Wenn Ihr GSC-Wert "Gecrawlt - derzeit nicht indexiert" hoch ist, sind die lowQuality- und pandaDemotion-Signale eine wahrscheinlichere Erklaerung als Crawl-Budget.

CompressedQualitySignals buendelt negative Signale (lowQuality, anchorMismatchDemotion, pandaDemotion) zu einem Pro-Dokument-Vorfilter
Massenweise duenne PDPs ziehen das Standing des gesamten Katalogs herunter - prunen oder konsolidieren bevor Sie hinzufuegen
"Gecrawlt - derzeit nicht indexiert" zeigt meist auf Qualitaetssignale, nicht auf Crawl-Budget
Konzentrieren Sie redaktionellen Aufwand auf Umsatz-PDPs; lassen Sie umsatzlose Quasi-Duplikate kanonisieren

Arbeiten Sie mit SEO-Experten zusammen, die E-Commerce verstehen

Die weltweit erste von E-Com-Gründern aufgebaute SEO-Agentur

Crawling & Indexierung von Produktseiten - EcomSEO Akademie | EcomSEO