Zoekfundamenten

10 min leestijd

Crawling en indexering van productpagina's

Dat Google je pagina's crawlt, garandeert niet dat ze in de zoekresultaten verschijnen. Crawling en indexering zijn twee aparte processen, en het begrijpen van het verschil ertussen is cruciaal voor elke webshop die met duizenden product-URL's werkt.

Crawling vs. indexering: het verschil dat ertoe doet

Crawling betekent dat Googlebot je pagina heeft bezocht en de inhoud heeft gedownload. Indexering betekent dat Google die inhoud heeft geanalyseerd, het waardig heeft bevonden voor opname en het heeft opgeslagen in zijn zoekindex. Een pagina kan gecrawld maar niet geïndexeerd worden, wat vaker voorkomt dan de meeste webshop-eigenaren beseffen.

Denk aan crawling als Google die door elk gangpad in je fysieke winkel loopt. Indexering is Google die besluit welke producten het waard zijn om in het schap te plaatsen zodat shoppers ze kunnen vinden. Als een productpagina dunne content heeft, een andere pagina dupliceert of technische problemen heeft, kan Google het crawlen en vervolgens besluiten dat het geen plek in de index verdient.

Voor een typische webshop met 20.000 productpagina's zien we gewoonlijk dat 30 % tot 50 % van die pagina's niet geïndexeerd wordt. Dat betekent dat duizenden producten onzichtbaar zijn in de zoekresultaten. De kloof tussen gecrawlde en geïndexeerde pagina's is waar de meeste ecommerce-SEO-kansen zich bevinden.

Gecrawld: Googlebot heeft de pagina bezocht en de inhoud gedownload
Geïndexeerd: Google heeft de pagina geanalyseerd en opgeslagen in zijn zoekdatabase
Gecrawld maar niet geïndexeerd: Google heeft de pagina gezien maar koos het niet op te nemen
Niet gecrawld: Google heeft de pagina nog niet bezocht of bewust overgeslagen

Waarom Google productpagina's overslaat bij indexering

De meest voorkomende reden waarom Google weigert een productpagina te indexeren is dubbele of bijna-dubbele content. Wanneer 500 producten van dezelfde fabrikant identieke beschrijvingen delen die alleen in productnaam verschillen, ziet Google weinig reden om alle 500 versies te indexeren. Het kiest er een paar uit en negeert de rest.

Dunne content is de tweede grootste boosdoener. Een productpagina met een beschrijving van 20 woorden, een prijs en een koop-knop biedt Google bijna geen informatie om te evalueren. Vergelijk dat met een concurrent wiens productpagina een unieke beschrijving van 300 woorden bevat, klantreviews, specificatietabellen en gebruiksinstructies. Google zal de rijkere pagina indexeren en de dunne overslaan.

Technische signalen kunnen ook indexering voorkomen. Pagina's die langzaam laden, soft 404-fouten retourneren, conflicterende canonical tags hebben of geblokkeerd zijn door noindex-richtlijnen zullen nooit in de index komen, ongeacht hun contentkwaliteit.

Paginakwaliteitssignalen zijn ook van belang. Als je site een hoge verhouding van pagina's van lage kwaliteit heeft, kan Google de crawlfrequentie voor je hele domein verlagen, waardoor het moeilijker wordt om zelfs je goede pagina's snel geïndexeerd te krijgen.

Dubbele of bijna-dubbele beschrijvingen over productpagina's
Dunne content met minder dan 50 woorden unieke tekst
Trage laadtijden van meer dan 5 seconden
Conflicterende of onjuiste canonical tags
Noindex tags per ongeluk toegepast door plugins of thema-instellingen
Tip

Voer een crawl uit met Screaming Frog of Sitebulb en filter op pagina's met minder dan 100 woorden bodytekst. Die dunne pagina's zijn je topkandidaten voor contentverbetering of consolidatie.

Canonical tags en dubbele content in ecommerce

Canonical tags vertellen Google welke versie van een pagina het origineel is wanneer meerdere URL's vergelijkbare of identieke content tonen. Voor ecommerce-sites is canonicalisatie niet optioneel. Zonder dit moet Google raden welke URL te indexeren, en het raadt vaak verkeerd.

Productvarianten creëren het meest voorkomende canonical-scenario. Een blauw t-shirt op /products/cotton-tee?color=blue en een rode versie op /products/cotton-tee?color=red kunnen 90 % van hun pagina-inhoud delen. Als dit echt hetzelfde product is met een kleurselector, moeten beide URL's canonicaliseren naar de hoofdproductpagina op /products/cotton-tee. Als de kleurvarianten een wezenlijk verschillende zoekvraag hebben (mensen zoeken specifiek naar "blauw katoenen t-shirt"), kunnen ze aparte geïndexeerde pagina's rechtvaardigen.

Gefacetteerde navigatie genereert nog meer canonical-complexiteit. Een URL als /shoes?size=10&color=black&brand=nike&sort=price-low is een van potentieel miljoenen filtercombinaties. Deze gefilterde weergaven moeten ofwel canonicaliseren naar de hoofdcategoriepagina of volledig worden geblokkeerd voor indexering. De keuze hangt af van of die specifieke filtercombinatie echte zoekvraag heeft.

We zien webshops twee veelgemaakte canonical-fouten maken. Ten eerste, circulaire canonicals waar pagina A canonicaliseert naar pagina B en pagina B terug naar pagina A. Ten tweede, alle productvarianten canonicaliseren naar één ouder terwijl elke variant onafhankelijk zoekvolume heeft, waardoor rankbare pagina's effectief worden verborgen voor Google.

Index-opblazing door filters en facetten beheren

Index-opblazing treedt op wanneer Google duizenden URL's van lage waarde indexeert die de algehele kwaliteitssignalen van je site verwateren. Voor ecommerce is de primaire bron van index-opblazing gefacetteerde navigatie die filterbare URL's genereert.

Neem een meubelwinkel met 200 producten in de categorie "banken". Als shoppers kunnen filteren op kleur (10 opties), materiaal (8 opties), prijsklasse (5 bereiken) en zitcapaciteit (4 opties), bereiken de mogelijke URL-combinaties 1.600 vóór het meenemen van multi-select filters. De meeste van deze gefilterde weergaven tonen dezelfde kleine set producten in verschillende volgordes.

De standaardaanpak om index-opblazing te beheersen omvat drie lagen. Ten eerste, gebruik robots.txt om Googlebot te blokkeren van het crawlen van de meest voor de hand liggende waardeloze filterpatronen. Ten tweede, pas noindex tags toe op gefilterde pagina's die Googlebot nog steeds via andere paden kan bereiken. Ten derde, gebruik canonical tags om gefilterde weergaven terug te verwijzen naar de hoofdcategoriepagina.

Een meer chirurgische aanpak is selectief indexering toe te staan op filtercombinaties die overeenkomen met echte zoekopdrachten. Als mensen in betekenisvolle aantallen zoeken naar "leren banken", is de URL /banken?materiaal=leer het misschien waard om te indexeren. Maar /banken?materiaal=leer&kleur=bruin&zitplaatsen=3 vrijwel zeker niet.

Shopify-webshops gaan hier anders mee om dan WooCommerce of Magento omdat Shopify standaard geen filter-URL's genereert. Derde-partij filter-apps zoals Smart Product Filter maken deze URL's aan, en elke app gaat anders om met canonical tags en indexeringscontroles. Controleer altijd hoe je filter-app deze technische details beheert.

Audit het aantal geïndexeerde URL's in GSC en vergelijk met je beoogde indexeerbare pagina's
Blokkeer waardeloze filterpatronen in robots.txt als eerste verdedigingslinie
Pas noindex toe op gefilterde pagina's die ondanks robots.txt-regels worden gecrawld
Indexeer selectief waardevolle filtercombinaties met bewezen zoekvraag
Controleer instellingen van derde-partij filter-apps voor canonical- en indexeringsafhandeling

Indexeringsstatus controleren in Google Search Console

Google Search Console biedt twee primaire tools voor het monitoren van indexering. Het Pagina's-rapport (voorheen Dekkingsrapport) toont hoeveel van je pagina's geïndexeerd zijn en waarom de rest is uitgesloten. De URL-inspectietool laat je de status van individuele pagina's controleren.

In het Pagina's-rapport, focus op het tabblad "Niet geïndexeerd". Google groepeert uitgesloten pagina's op reden: "Gecrawld - momenteel niet geïndexeerd", "Ontdekt - momenteel niet geïndexeerd", "Duplicaat zonder door gebruiker geselecteerde canonical", "Uitgesloten door noindex-tag", en diverse andere. Elke reden vereist een andere oplossing.

"Gecrawld - momenteel niet geïndexeerd" betekent dat Google de pagina heeft bezocht maar ervoor heeft gekozen deze niet aan de index toe te voegen. Dit signaleert meestal een contentkwaliteitsprobleem. De content verbeteren, unieke beschrijvingen toevoegen of verrijken met reviews en gestructureerde data kan helpen.

"Ontdekt - momenteel niet geïndexeerd" betekent dat Google weet dat de URL bestaat maar nog niet de moeite heeft genomen om deze te crawlen. Dit wijst op lage crawlprioriteit, vaak veroorzaakt door zwakke interne linking of de pagina die te diep in de site-hiërarchie zit.

De URL-inspectietool toont je precies wat Google ziet wanneer het een specifieke pagina crawlt. Gebruik het om te verifiëren dat je canonical tags worden gerespecteerd, dat je pagina correct wordt gerenderd en dat er geen onbedoelde noindex tags de indexering blokkeren. We raden aan maandelijks 10 tot 20 representatieve productpagina's te inspecteren om problemen vroeg te signaleren.

Tip

Exporteer de "Niet geïndexeerd"-data uit GSC als spreadsheet en categoriseer pagina's op type (product, categorie, filter, blog). Dit onthult of je indexeringsproblemen geconcentreerd zijn in een specifiek paginatype, waardoor de oplossing gerichter wordt.

Praktische stappen om productpagina-indexering te verbeteren

Begin met het auditen welke productpagina's momenteel geïndexeerd zijn. Gebruik de site:-operator in Google (site:jouwwebshop.nl/products/) om een ruwe telling te krijgen en kruis deze dan aan met GSC-data voor nauwkeurigheid. Als minder dan 70 % van je productpagina's geïndexeerd is, heb je werk te doen.

Schrijf unieke productbeschrijvingen eerst voor je bestverkopende en hoogste-marge producten. Deze pagina's hebben het meeste omzetpotentieel uit organisch zoeken. Zelfs het toevoegen van 150 tot 200 woorden unieke, beschrijvende content per productpagina kan het verschil maken tussen geïndexeerd en genegeerd.

Consolideer pagina's die geen onafhankelijk doel dienen. Als je 30 kleurvarianten van hetzelfde product hebt en geen van die kleurspecifieke termen zoekvolume heeft, consolideer ze onder één enkele productpagina met een kleurselector. Die ene sterke pagina presteert beter dan 30 dunne pagina's, elke keer.

Versterk interne links naar productpagina's die je geïndexeerd wilt hebben. Link vanuit gerelateerde blogposts, vanuit de uitgelichte productensectie op de homepage en vanuit andere productpagina's via "klanten kochten ook" of "gerelateerde producten"-widgets. Elke extra interne link signaleert aan Google dat de pagina belangrijk is.

Houd tot slot je sitemap schoon. Verwijder URL's die 404-fouten retourneren, die op noindex staan of die je hebt besloten te consolideren. Een slanke sitemap die alleen pagina's bevat die je echt geïndexeerd wilt hebben, geeft Google een duidelijker beeld van je sitestructuur.

Audit huidige indexeringspercentages met GSC en de site:-operator
Schrijf unieke beschrijvingen eerst voor bestverkopende producten
Consolideer dunne variantpagina's onder enkele sterke productpagina's
Bouw interne links vanuit blogposts, homepage en gerelateerde producten
Maak je sitemap schoon zodat deze alleen echt indexeerbare URL's bevat

Werk samen met SEO-experts die e-commerce begrijpen

Het eerste door e-commerce opgerichte SEO-bureau ter wereld

Crawling en indexering van productpagina's - EcomSEO Academy | EcomSEO