Zoekfundamenten

10 min leestijd

Hoe Google webshops vindt

Voordat Google je producten kan rangschikken, moet het ze ontdekken. Begrijpen hoe Googlebot ecommerce-sites navigeert, laat zien waarom sommige webshops duizenden pagina's geïndexeerd krijgen terwijl andere moeite hebben om zelfs hun hoofdcategoriepagina's opgemerkt te krijgen.

DoorFabian van Til— SEO Lead, EcomSEO
·
Laatst herzien:

Hoe Googlebot ecommerce-sites crawlt

Googlebot is de software die Google gebruikt om webpagina's op te halen. Het werkt door links te volgen van de ene pagina naar de andere, vergelijkbaar met een shopper die door je webshop klikt. Wanneer het op een pagina landt, leest het de HTML, volgt links die het daar vindt en voegt nieuw ontdekte URL's toe aan zijn crawl-wachtrij.

Voor ecommerce-sites loopt dit crawlproces snel tegen complicaties aan. Een homepage kan linken naar 15 categoriepagina's, die elk linken naar 20 subcategorieën, die elk 40 producten vermelden. Dat zijn al 12.000 productpagina's ontdekt vanuit één crawlpad. Maar Googlebot heeft geen onbeperkte middelen. Google wijst elke site een crawlbudget toe op basis van de autoriteit van de site en de servercapaciteit.

Een middelgrote webshop met gematigde domeinautoriteit ziet Googlebot mogelijk 5.000 tot 15.000 pagina's per dag opvragen. Als je webshop 80.000 URL's heeft inclusief gefilterde weergaven en paginering, kan het weken duren voordat Googlebot elke pagina één keer heeft bezocht. Daarom is crawl-efficiëntie zo belangrijk voor ecommerce. Elke URL die Googlebot verspilt aan een waardeloze filterpagina is een URL die niet is besteed aan een productpagina die je daadwerkelijk wilt laten ranken.

Lees meer over het crawlen en indexeren van productpagina's in ons gedetailleerde onderwerp.

Crawl-Budget-Mathematik

15 categorieën x 20 subcategorieën x 40 producten = 12.000 productpagina's uit één crawlpad. Voeg gefilterde weergaven en paginering toe, en een winkel met 50.000 SKU's kan eenvoudig meer dan 200.000 crawlbare URL's genereren.

Diagram dat laat zien hoe Googlebot een e-commerce winkel crawlt van de startpagina via categorieën naar productpagina's
Googlebot volgt links van de startpagina naar categorieën naar producten. Pagina's dieper in de hiërarchie worden minder vaak gecrawld.
Googlebot volgt links van pagina naar pagina om URL's te ontdekken
Elke site krijgt een crawlbudget op basis van autoriteit en serversnelheid
Grote webshops hebben mogelijk weken nodig voor volledige crawl-dekking
Waardeloze pagina's verbruiken budget dat naar productpagina's zou kunnen gaan

De crawl-wachtrij en het prioriteitssysteem

Googlebot crawlt niet alle pagina's gelijk. Het onderhoudt een prioriteitswachtrij die bepaalt welke URL's eerst worden gecrawld en hoe vaak ze worden herbezocht. Pagina's die vaak veranderen, meer interne links ontvangen of hogere autoriteit hebben, worden vaker gecrawld.

Je homepage wordt mogelijk meerdere keren per dag gecrawld. Categoriepagina's op het hoogste niveau worden dagelijks of om de paar dagen gecrawld. Individuele productpagina's dieper in de sitestructuur worden misschien maar elke paar weken gecrawld. Voor een seizoensproduct dat net is gelanceerd, kan die vertraging betekenen dat je weken aan potentieel zoekverkeer mist.

We kunnen crawlprioriteit beïnvloeden via interne links. Een productpagina die gelinkt is vanaf je homepage, een categoriepagina en drie blogposts wordt eerder en vaker gecrawld dan een die alleen bereikbaar is via twee niveaus van categorienavigatie. Daarom is strategische interne linking een van de meest impactvolle SEO-tactieken voor webshops.

Tip

Controleer je crawlstatistieken in Google Search Console onder Instellingen > Crawlstatistieken. Als de gemiddelde responstijd meer dan 500 ms bedraagt, kan je serversnelheid beperken hoeveel pagina's Googlebot per dag crawlt.

JavaScript-rendering en ecommerce-platforms

Veel moderne ecommerce-platforms gebruiken JavaScript om productinformatie, prijzen en reviews te laden. Shopify-thema's, React-gebaseerde headless webshops en sommige WooCommerce-setups vertrouwen sterk op client-side rendering. Dit creëert een uitdaging omdat Googlebot in twee fasen crawlt.

In de eerste fase haalt Googlebot de ruwe HTML op. Als je producttitel, beschrijving en prijs via JavaScript worden geladen nadat de pagina is gerenderd, levert die eerste HTML-ophaling een lege schil op. Google zet de pagina dan in de wachtrij voor een tweede renderingfase waarin het JavaScript uitvoert. Deze renderingwachtrij kan dagen of zelfs weken vertraging toevoegen voordat Google je daadwerkelijke content ziet.

Shopify-webshops die het standaard Liquid-templatesysteem gebruiken, vermijden dit probleem over het algemeen omdat productdata server-side wordt gerenderd. Maar webshops die headless commerce-setups met frameworks als Next.js of Nuxt gebruiken, moeten server-side rendering (SSR) of static site generation (SSG) implementeren om ervoor te zorgen dat Googlebot de productinhoud bij de eerste ophaling ziet.

We hebben webshops geaudit waar 30 % van de productpagina's niet geïndexeerd was omdat de product schema-markup, reviews en zelfs de producttitel allemaal via JavaScript werden geladen dat Googlebot niet kon renderen. Overschakelen naar server-side rendering loste de indexering binnen drie weken op.

Voor een diepere duik in deze technische fundamenten, zie onze gids over technische SEO voor ecommerce.

Praxisfall

We hebben een winkel gecontroleerd waar 30% van de productpagina's niet was geïndexeerd. De producttitel, schema-opmaak en recensies zijn allemaal geladen via JavaScript. Overschakelen naar server-side rendering met vaste indexering binnen

Diagram dat het tweefasige weergaveproces van Google toont voor pagina's die veel JavaScript gebruiken
Fase 1 haalt onbewerkte HTML op (vaak leeg voor JS-sites). Fase 2 rendert JavaScript, maar kan dagen of weken worden vertraagd.
Googlebot crawlt in twee fasen: HTML-ophaling, dan JavaScript-rendering
De renderingwachtrij kan contentontdekking dagen of weken vertragen
Standaard Shopify Liquid-templates renderen server-side standaard
Headless setups hebben SSR of SSG nodig voor betrouwbare indexering
Test je pagina's met de URL-inspectietool om te zien wat Google rendert

XML-sitemaps voor productontdekking

Een XML-sitemap is een bestand dat de URL's vermeldt waarvan je wilt dat Google ze kent. Voor ecommerce-sites dienen sitemaps als een direct kanaal om Google te vertellen welke pagina's bestaan, wanneer ze voor het laatst zijn bijgewerkt en hoe vaak ze veranderen.

Een goed gestructureerde ecommerce-sitemapstrategie gebruikt meerdere sitemapbestanden. Eén sitemap voor productpagina's, een andere voor categoriepagina's, een voor blogcontent en een voor statische pagina's zoals je over-ons-pagina en verzendbeleid. Deze scheiding laat je indexering per paginatype monitoren in Search Console.

We raden doorgaans aan om alleen canonieke, indexeerbare pagina's in je sitemaps op te nemen. Gefilterde URL's, uitverkochte productpagina's die je op noindex hebt gezet, en gepagineerde lijstpagina's voorbij pagina één moeten worden uitgesloten. Een sitemap die 200.000 URL's vermeldt terwijl slechts 30.000 indexeerbaar zijn, stuurt een verwarrend signaal naar Google over de kwaliteit van je site.

De meeste ecommerce-platforms genereren sitemaps automatisch. Shopify maakt een sitemap.xml aan die producten, collecties, pagina's en blogposts bevat. WooCommerce met Yoast SEO of RankMath genereert sitemaps met meer configuratieopties. Ongeacht het platform, bekijk je sitemap maandelijks om ervoor te zorgen dat het je huidige sitestructuur weerspiegelt.

Sitemap-Struktur Beispiel

sitemap-products.xml (30.000 URL's) + sitemap-categories.xml (200 URL's) + sitemap-blog.xml (150 URL's) + sitemap-pages.xml (20 URL's). Met afzonderlijke bestanden kunt u de indexering volgen op inhoudstype in Search Co

Tip

Dien je sitemaps in bij Google Search Console en controleer het dekkingsrapport na twee weken. Als de verhouding van geïndexeerde tot ingediende pagina's onder de 70 % ligt, onderzoek dan waarom Google ervoor kiest een aanzienlijk deel van je ingediende URL's niet te indexeren.

Veelvoorkomende ontdekkingsproblemen in ecommerce

Het meest voorkomende ontdekkingsprobleem dat we zien is webshops die Googlebot blokkeren van essentiële bronnen in hun robots.txt-bestand. Sommige WooCommerce-installaties blokkeren de /wp-admin/-directory, wat correct is, maar blokkeren per ongeluk ook CSS- en JavaScript-bestanden die Googlebot nodig heeft om pagina's correct te renderen.

Een ander veelvoorkomend probleem zijn oneindige crawl-vallen door gefacetteerde navigatie. Een kledingwinkel die gebruikers laat combineren op maat, kleur, materiaal, merk en prijsfilters kan miljoenen unieke URL's genereren. Zonder adequate controles kan Googlebot zijn volledige crawlbudget besteden aan het verkennen van deze filtercombinaties zonder ooit diepe productpagina's te bereiken.

Sessie-gebaseerde URL's veroorzaken ook problemen. Sommige ecommerce-platforms voegen sessie-ID's of trackingparameters toe aan URL's, waardoor het lijkt alsof er duizenden dubbele pagina's zijn. Elk bezoek van Googlebot genereert een nieuwe URL-variant, wat crawlbudget verspilt aan pagina's die allemaal identieke content hebben.

Paginering kan ontdekking ook vertragen. Als je categoriepagina 500 producten vermeldt over 25 gepagineerde pagina's, moet Googlebot door pagina 1, pagina 2, pagina 3, enzovoort crawlen om alle producten te ontdekken. Producten op pagina 20 kunnen aanzienlijk langer duren om ontdekt en geïndexeerd te worden dan die op pagina 1.

Controleer robots.txt om te verzekeren dat CSS- en JS-bestanden niet geblokkeerd zijn
Implementeer controles op gefacetteerde navigatie om crawl-vallen te voorkomen
Gebruik canonical tags om sessie-ID's en trackingparameters af te handelen
Overweeg meer producten per pagina te laden om pagineringsdiepte te verminderen

In Googles indexatie-pipeline: Trawler, Alexandria en Mustang

Het Content Warehouse Leak 2024 noemde de systemen die jouw winkel van URL naar gerankt resultaat brengen. Trawler crawlt en haalt pagina's op. Alexandria indexeert ze. Mustang voert vervolgens initial scoring uit (de Ascorer) met honderden features, voordat twiddlers de resultaten herrangschikken. Elke productpagina van je winkel passeert elke fase.

Voor winkels is de pipeline-implicatie dat crawl-prioriteit-signalen (link equity, versheid, interne linkdiepte) beslissen hoe vaak Trawler een URL opnieuw bezoekt. Pagina's die 4+ klikken diep zijn begraven, zonder inkomende interne links en met verouderde lastmod-datums, worden zelden gecrawld - en wijzigingen die je daar maakt duren veel langer om in de rankings te verschijnen. Het hostAge-attribuut van het leak bevestigt ook het lang veronderstelde "sandbox"-effect: nieuwe domeinen onder ~12 maanden zien beperkte zichtbaarheid ongeacht optimalisatie.

Indexatie is ook niet binair. Alexandria kan een URL indexeren zonder die te tonen (Google Search Console markeert deze als "Gecrawld - momenteel niet geindexeerd"), en de keuze wordt beinvloed door kwaliteitssignalen die al bij indexatie zijn berekend. De conclusie voor ecommerce: behandel crawlarchitectuur en de technische basis als dragend - ze bepalen welke van je pagina's uberhaupt de scoring-fase bereiken.

Trawler -> Alexandria -> Mustang -> twiddlers is de werkelijke ranking-keten onthuld in het leak
Trawler-revisitfrequentie hangt af van link equity, versheid en interne linkdiepte - begraaf een PDP en updates landen pas na weken
Alexandria kan indexeren zonder serveren; kwaliteitssignalen berekend bij indexatie bepalen wat getoond mag worden
hostAge bevestigt het sandbox-effect: domeinen onder ~12 maanden zien beperkte zichtbaarheid

Werk samen met SEO-experts die e-commerce begrijpen

Het eerste door e-commerce opgerichte SEO-bureau ter wereld

Hoe Google webshops vindt - EcomSEO Academie | EcomSEO