Technische SEO

10 min leestijd

Crawlbudgetbeheer

Google wijst een beperkt aantal pagina's toe dat het binnen een bepaalde periode op je site zal crawlen. Voor webshops met duizenden producten, filterpagina's en parameter-URL's betekent slecht crawlbudgetbeheer dat Google tijd verspilt aan waardeloze pagina's terwijl de pagina's die daadwerkelijk omzet genereren worden genegeerd.

Wat crawlbudget werkelijk is

Crawlbudget is de combinatie van twee factoren: het crawlfrequentielimiet (hoeveel verzoeken per seconde Googlebot kan doen zonder je server te overbelasten) en de crawlvraag (hoeveel Google je site wil crawlen op basis van populariteit en versheid). Samen bepalen ze het totale aantal pagina's dat Googlebot in een bepaalde periode zal crawlen.

Voor kleine webshops met minder dan 5.000 pagina's is crawlbudget zelden een probleem. Google zal je hele site regelmatig crawlen zonder problemen. Maar zodra je webshop de 10.000 URL's overschrijdt (inclusief parametervariaties, filterpagina's en gepagineerde lijsten), wordt crawlbudget een echt knelpunt.

Een middelgrote modewinkel die we hebben geauditeerd had 8.000 daadwerkelijke producten maar meer dan 340.000 crawlbare URL's door gefacetteerde navigatie, kleur-/maatparameters, sorteervariaties en paginering. Googlebot besteedde 85% van zijn crawlbudget aan deze waardeloze parameterpagina's, terwijl 30% van de daadwerkelijke productpagina's meer dan 90 dagen niet opnieuw was gecrawld.

Crawlfrequentielimiet: maximale verzoeken per seconde die je server van Googlebot aankan
Crawlvraag: Google's interesse in je pagina's op basis van populariteit en veroudering
Webshops onder 5.000 pagina's hoeven zich zelden zorgen te maken over crawlbudget
Webshops boven 10.000 URL's (inclusief parameters) moeten het crawlbudget actief beheren

Crawlverspilling in je webshop identificeren

Crawlverspilling treedt op wanneer Googlebot tijd besteedt aan het crawlen van pagina's die geen SEO-waarde bieden. In e-commerce zijn de grootste bronnen gefacetteerde navigatie-URL's, parameterpagina's, interne zoekresultatenpagina's en excessieve paginering.

Gefacetteerde navigatie is de grootste boosdoener. Een categoriepagina met filters voor merk, kleur, maat, prijs en beoordeling kan duizenden URL-combinaties genereren. Elke combinatie (/schoenen?merk=nike&kleur=zwart&maat=42) is een aparte crawlbare URL die doorgaans dezelfde producten in een iets andere rangschikking toont. Google hoeft deze niet allemaal te crawlen.

Sorteerparameters verspillen crawlbudget onopvallend. URL's zoals /categorie?sorteer=prijs-laag, /categorie?sorteer=prijs-hoog, /categorie?sorteer=nieuwste en /categorie?sorteer=bestverkocht tonen allemaal dezelfde producten. Deze pagina's voegen nul unieke content toe maar kunnen je crawlbare URL-aantal verdrievoudigen of verviervoudigen.

Sessie-ID's en trackingparameters aan URL's (/product?utm_source=email&session=abc123) creeren dubbele crawlbare versies van elke pagina. Als je platform deze parameters toevoegt en ze niet afhandelt met canonical tags, vermenigvuldig je je crawloppervlak onnodig.

Gefacetteerde navigatie: filtercombinaties die duizenden crawlbare URL's creeren
Sorteerparameters: dezelfde producten in andere volgorde, nul unieke content
Interne zoekpagina's: /search?q=xyz URL's die Google nooit zou moeten indexeren
Sessie- en trackingparameters: dubbele URL's door UTM-tags of sessie-ID's
Paginering voorbij pagina 5-10: diepe gepagineerde pagina's met afnemende SEO-waarde
Tip

Download je serverlogs van de afgelopen 30 dagen en analyseer welke URL's Googlebot het vaakst heeft bezocht. Je zult waarschijnlijk ontdekken dat parameterpagina's en filter-URL's het crawlen domineren, terwijl productpagina's veel minder bezoeken ontvangen dan ze zouden moeten.

Waardeloze URL's blokkeren van crawling

Het primaire hulpmiddel om crawlverspilling te voorkomen is robots.txt. Door specifieke URL-patronen te verbieden, vertel je Googlebot die pagina's niet te crawlen. Voor e-commerce betekent dit doorgaans het blokkeren van gefacetteerde filterparameters, sorteervolgordes, interne zoekresultaten en winkelwagen-/afrekenpagina's.

Een praktisch robots.txt voor een e-commerce webshop kan regels bevatten zoals Disallow: /*?sort=, Disallow: /*?filter=, Disallow: /search en Disallow: /cart. Deze regels voorkomen dat Googlebot crawlbudget verspilt aan pagina's die nooit in zoekresultaten zouden moeten verschijnen.

Wees voorzichtig met robots.txt-blokkering. Het voorkomt crawling, niet indexering. Als andere pagina's linken naar een geblokkeerde URL, kan Google deze mogelijk toch indexeren op basis van ankertekst en linkcontext, zelfs zonder de pagina zelf te crawlen. Voor pagina's die je volledig uit de index wilt, combineer robots.txt-blokkering met noindex metatags of canonical tags.

Een andere benadering is het gebruik van het URL Parameters-tool in Google Search Console om Google te vertellen hoe specifieke parameters de pagina-inhoud beinvloeden. Je kunt aangeven of een parameter zoals "sort" de inhoud wijzigt, en of Google alle, sommige of geen URL's met die parameter moet crawlen.

Tip

Monitor na het bijwerken van je robots.txt het Crawlstatistieken-rapport in Google Search Console gedurende twee tot vier weken. Je zou moeten zien dat het totale aantal gecrawlde pagina's afneemt terwijl de crawlfrequentie van je belangrijke pagina's toeneemt.

Crawlstatistieken monitoren in Google Search Console

Google Search Console biedt een Crawlstatistieken-rapport onder Instellingen dat laat zien hoe Googlebot met je site omgaat. Dit rapport onthult het totale aantal crawlverzoeken, de gemiddelde responstijd, de uitsplitsing van crawlverzoeken per responstype en het crawldoel (ontdekking vs. verversing).

Let op de uitsplitsing van responscodes. Als een aanzienlijk percentage van de crawlverzoeken 301/302 redirects, 404-fouten of 5xx-serverfouten retourneert, verspil je crawlbudget aan kapotte of omgeleide URL's. Een gezonde e-commerce site zou 90% of meer van de crawlverzoeken met een 200-statuscode moeten zien retourneren.

De uitsplitsing per bestandstype laat zien of Googlebot onevenredig veel tijd besteedt aan het downloaden van afbeeldingen, CSS, JavaScript of andere bronnen. Als JavaScript-bestanden je crawlverzoeken domineren, kan dit wijzen op renderingproblemen die Googlebot dwingen extra verzoeken te doen.

Vergelijk je crawlstatistieken maand over maand. Een plotselinge daling in crawlverzoeken kan wijzen op serverprestatieproblemen of robots.txt-wijzigingen die te veel hebben geblokkeerd. Een plotselinge piek kan betekenen dat Google een nieuwe batch parameter-URL's heeft ontdekt of dat een sitemap-wijziging eerder verborgen pagina's heeft blootgesteld.

Uitsplitsing van responscodes controleren: mik op 90%+ die statuscode 200 retourneert
Distributie per bestandstype beoordelen: excessieve JS-downloads signaleren renderingproblemen
Verdeling van crawldoel monitoren: ontdekking van nieuwe pagina's vs. verversing
Trends maandelijks volgen: plotselinge dalingen of pieken wijzen op configuratiewijzigingen

Server-side rendering en crawlefficiency

Hoe je webshop pagina's rendert, heeft direct invloed op de crawlefficiency. Client-side gerenderde (CSR) pagina's gebouwd met JavaScript-frameworks zoals React of Vue vereisen dat Googlebot meerdere verzoeken doet: eerst om de HTML-schil te downloaden, dan om JavaScript op te halen en uit te voeren, en ten slotte om de pagina-inhoud te renderen. Dit proces is langzamer en verbruikt meer crawlbudget per pagina.

Server-side rendering (SSR) levert volledig gerenderde HTML bij het eerste verzoek, waardoor Googlebot de pagina-inhoud onmiddellijk kan begrijpen. Voor e-commerce sites resulteert SSR of static site generation (SSG) doorgaans in 40% tot 60% meer pagina's gecrawld per crawlsessie vergeleken met CSR-equivalenten.

Shopify-webshops worden standaard server-side gerenderd, dus dit is zelden een probleem voor Shopify-verkopers. Maar webshops gebouwd op headless architecturen met React/Next.js of Vue/Nuxt.js moeten ervoor zorgen dat hun SSR-implementatie correct werkt. We hebben headless webshops gezien waar een verkeerd geconfigureerde SSR-setup ervoor zorgde dat Googlebot lege productpagina's zag, wat leidde tot massale de-indexering.

Test hoe Google je pagina's ziet met het URL-inspectietool in GSC. Klik op "Geteste pagina bekijken" om zowel de ruwe HTML-respons als de gerenderde HTML te zien. Als de gerenderde versie productinformatie, prijzen of reviews mist, heeft je renderingconfiguratie aandacht nodig.

Prioriteren wat gecrawld wordt

Naast het blokkeren van waardeloze pagina's kun je Googlebot actief naar je belangrijkste content sturen. Interne linking is het sterkste signaal voor crawlprioriteit. Pagina's met meer interne links die ernaar wijzen worden vaker gecrawld en sneller na updates.

Houd je XML-sitemap slank en nauwkeurig. Neem alleen pagina's op die je oprecht wilt indexeren: productpagina's, categoriepagina's, belangrijke blogposts en essentiele informatiepagina's. Verwijder uitverkochte producten (of redirect ze), noindex-pagina's en parameter-URL's uit je sitemap. Een sitemap met 5.000 belangrijke URL's verslaat er een met 50.000 URL's waarvan 90% onzin is.

Werk de lastmod-datums van je sitemap nauwkeurig bij. Wanneer je de prijs, beschrijving of beschikbaarheid van een productpagina bijwerkt, moet de lastmod-datum de wijziging weerspiegelen. Googlebot gebruikt lastmod als signaal voor de her-crawlprioriteit. We hebben webshops gezien die alle lastmod-datums op dezelfde waarde zetten (of de datum van vandaag gebruiken voor elke pagina), wat het signaal vernietigt en Google ertoe brengt lastmod volledig te negeren.

Voor tijdgevoelige wijzigingen zoals uitverkoop, prijsverlagingen of nieuwe productlanceringen kun je de Indexing API gebruiken (voor geschikte sitetypen) of handmatig indexering aanvragen via het URL-inspectietool van GSC.

Interne linking naar prioriteitsproduct- en categoriepagina's versterken
XML-sitemaps slank houden: alleen pagina's die je wilt indexeren
Nauwkeurige lastmod-datums gebruiken die echte contentwijzigingen weerspiegelen
Handmatig indexering aanvragen voor dringende wijzigingen via GSC URL-inspectie
Tip

Maak een lijst van je top 100 omzetgenererende product- en categoriepagina's. Zorg ervoor dat deze pagina's de meeste interne links hebben, in je sitemap verschijnen en bijgewerkte lastmod-datums krijgen wanneer de content verandert.

Werk samen met SEO-experts die e-commerce begrijpen

Het eerste door e-commerce opgerichte SEO-bureau ter wereld

Crawlbudgetbeheer - EcomSEO Academy | EcomSEO