Technische SEO

12 min leestijd

Robots.txt en XML-sitemaps

Je robots.txt-bestand en XML-sitemaps zijn twee van de meest fundamentele technische SEO-bestanden in je ecommerce-winkel. Samen bepalen ze wat zoekmachines kunnen crawlen en bieden ze een routekaart van de pagina's die je geindexeerd wilt hebben. Deze verkeerd instellen kan je beste producten voor Google verbergen of de index overspoelen met filterpagin's van lage waarde die je rankings kannibaliseren.

Robots.txt-basisprincipes voor ecommerce

Het robots.txt-bestand staat in de root van je domein (example.com/robots.txt) en geeft crawl-instructies aan zoekmachinebots. Het gebruikt een eenvoudige syntax: User-agent specificeert welke bot de regels betreffen, Disallow blokkeert specifieke URL-paden van crawling, en Allow overschrijft een Disallow voor specifieke sub-paden. Het bestand is publiek toegankelijk, dus gebruik het nooit om gevoelige content te verbergen.

Voor ecommerce-winkels speelt robots.txt een cruciale rol bij het beheren van crawlbudget. Zonder beperkingen proberen bots elke vindbare URL op je site te crawlen, inclusief winkelmandpagina's, afrekenflows, accountpagina's, interne zoekresultaten en duizenden facetnavigatie-URL's. Deze pagina's verspillen crawlbudget en kunnen problemen met dubbele content veroorzaken als ze worden geindexeerd.

Een veelvoorkomend misverstand is dat robots.txt indexering voorkomt. Dat doet het niet. Robots.txt voorkomt alleen crawling. Als een andere pagina linkt naar een geblokkeerde URL, kan Google die URL nog steeds indexeren op basis van ankertekst en omringende context.

Elke ecommerce-winkel moet zijn robots.txt-bestand testen met de robots.txt-testtool in Google Search Console voordat wijzigingen worden doorgevoerd. Een enkel verkeerd geplaatst jokerteken of een te brede Disallow-regel kan per ongeluk je hele productcatalogus blokkeren van crawling.

Robots.txt staat in de root van je domein en bepaalt welke URL's bots kunnen crawlen
User-agent, Disallow en Allow zijn de drie kernrichtlijnen
Robots.txt voorkomt crawling, niet indexering; geblokkeerde pagina's kunnen nog steeds in zoekresultaten verschijnen
Test robots.txt-wijzigingen altijd in Google Search Console voordat je ze doorvoert
Tip

Bewaar een backup van je robots.txt voordat je wijzigingen aanbrengt. Een kapot robots.txt-bestand dat per ongeluk alles blokkeert (Disallow: /) kan binnen dagen leiden tot catastrofaal verlies van organisch verkeer.

Essentiele robots.txt-regels voor webwinkels

Elke ecommerce robots.txt moet verschillende categorieen URL's van lage waarde blokkeren. Winkelmand- en afrekenpagina's (/cart, /checkout, /account) bieden geen SEO-waarde en bevatten gebruikersspecifieke content. Interne zoekresultatenpagina's (/search?q=) genereren duizenden dunne-contentpagina's die je categorielijsten dupliceren en kunnen leiden tot keyword-kannibalisatie.

Facetnavigatieparameters vertegenwoordigen de grootste bron van crawlverspilling in de meeste winkels. Regels zoals Disallow: /*?color=, Disallow: /*?size=, Disallow: /*?brand= en Disallow: /*?sort= voorkomen dat bots de combinatorische explosie van filter-URL's crawlen. Wees strategisch over welke parameters je blokkeert. Als je winkel sterke SEO-geoptimaliseerde pagina's heeft voor specifieke merken, blokkeer dan niet de merkparameter globaal.

Sorteerparameters moeten altijd worden geblokkeerd. URL's als /categorie?sort=prijs-oplopend en /categorie?sort=nieuwste tonen dezelfde producten in een andere volgorde en voegen nul unieke content toe. Evenzo kunnen paginatieparameters voorbij een redelijke diepte worden beperkt.

Voeg altijd een Sitemap-richtlijn toe onderaan je robots.txt die naar je XML-sitemap wijst. Dit helpt zoekmachines je sitemap te ontdekken. Het formaat is eenvoudig: Sitemap: https://www.example.com/sitemap.xml.

Winkelmand-, afreken- en accountpagina's blokkeren van crawling
Interne zoekresultaat-URL's blokkeren om dunne-content-indexering te voorkomen
Facetnavigatieparameters selectief blokkeren, waardevolle SEO-filterpagina's behouden
Sorteerparameters altijd blokkeren omdat ze nul unieke content creeren
Je sitemap-URL onderaan robots.txt opnemen voor ontdekking
Tip

Gebruik jokertekenpatronen voorzichtig. Disallow: /*? zou alle URL's met welke queryparameter dan ook blokkeren, inclusief potentieel waardevolle. Blokkeer in plaats daarvan specifieke parameternamen individueel.

XML-sitemapstructuur voor productcatalogi

Een XML-sitemap is een gestructureerd bestand dat de URL's opsomt die je wilt dat zoekmachines ontdekken en indexeren. Voor ecommerce-winkels met grote productcatalogi is de juiste sitemap-architectuur cruciaal omdat het direct beinvloedt welke pagina's Google prioriseert voor crawling en indexering.

Gebruik een sitemap-indexbestand als je primaire sitemap die verwijst naar meerdere kind-sitemaps georganiseerd per contenttype. Een typische ecommerce-sitemapstructuur omvat aparte sitemaps voor productpagina's (sitemap-products.xml), categoriepagina's (sitemap-categories.xml), blogposts (sitemap-blog.xml) en statische pagina's (sitemap-pages.xml).

Elke XML-sitemap heeft een limiet van 50.000 URL's en 50 MB ongecomprimeerde bestandsgrootte. Voor winkels met meer dan 50.000 producten, splits je productsitemap in meerdere bestanden, idealiter georganiseerd per categorie of afdeling. Deze logische groepering maakt het gemakkelijker om indexeringspercentages per productcategorie te volgen in Google Search Console.

Elke URL in je sitemap moet de canonieke versie van die pagina zijn. Neem nooit URL's op die redirecten, 404-fouten retourneren, noindex-tags hebben of geblokkeerd zijn door robots.txt. Deze URL's opnemen verspilt Google's crawlinspanning en ondermijnt het vertrouwen in de nauwkeurigheid van je sitemapbestand.

Gebruik een sitemap-indexbestand dat verwijst naar aparte kind-sitemaps per contenttype
Respecteer de limiet van 50.000 URL's en 50 MB per sitemapbestand
Splits grote productcatalogi in categoriegebaseerde sitemapbestanden
Neem alleen canonieke, indexeerbare URL's op die statuscode 200 retourneren
Neem nooit omgeleide, noindexed of robots.txt-geblokkeerde URL's op in sitemaps
Tip

Dien je sitemap in via Google Search Console en controleer het dekkingsrapport regelmatig. GSC vertelt je precies hoeveel URL's uit je sitemap zijn geindexeerd, uitgesloten of fouten hadden.

Lastmod, Priority en Changefreq: wat er echt toe doet

XML-sitemaps ondersteunen verschillende optionele attributen voor elke URL: lastmod (datum laatste wijziging), priority (relatief belang van 0,0 tot 1,0) en changefreq (verwachte wijzigingsfrequentie). In de praktijk biedt alleen lastmod betekenisvolle waarde. Google heeft publiekelijk verklaard dat het de attributen priority en changefreq volledig negeert omdat webmasters ze zo vaak onjuist instellen dat ze geen betrouwbaar signaal dragen.

Het lastmod-attribuut vertelt zoekmachines wanneer de content van een pagina voor het laatst inhoudelijk is bijgewerkt. Dit is een echt signaal dat Google gebruikt om re-crawling te prioriteren. Wanneer je de prijs, beschikbaarheid, beschrijving of afbeeldingen van een product bijwerkt, moet de lastmod-datum die wijziging weerspiegelen.

De kritieke fout die veel winkels maken is lastmod instellen op de huidige datum voor alle pagina's elke keer dat de sitemap wordt geregenereerd. Als je sitemap elke nacht wordt herbouwd en elke URL met de datum van vandaag markeert, leert Google snel dat je lastmod-datums betekenisloos zijn. We hebben winkels geaudit waar alleen het corrigeren van onnauwkeurige lastmod-datums resulteerde in 30% snellere indexering van productupdates.

Voor ecommerce specifiek, koppel lastmod aan daadwerkelijke datawijzigingen in je productinformatiesysteem. Wanneer voorraadniveaus veranderen, prijzen worden bijgewerkt, nieuwe reviews worden geplaatst of productbeschrijvingen worden bewerkt, werk dan de lastmod-datum bij voor die specifieke product-URL's.

Lastmod is het enige sitemap-attribuut dat Google daadwerkelijk als crawlsignaal gebruikt
Google negeert publiekelijk priority- en changefreq-waarden ingesteld door webmasters
Alle lastmod-datums op de huidige datum instellen vernietigt het signaal voor Google
Koppel lastmod-datums aan echte contentwijzigingen: prijsupdates, nieuwe reviews, beschrijvingsaanpassingen
Tip

Na het corrigeren van je lastmod-implementatie, monitor het crawlstatistiekenrapport in Google Search Console. Je zou moeten zien dat Google zijn crawlfocus binnen twee tot vier weken verschuift naar recent bijgewerkte pagina's.

Niet-voorradige producten in sitemaps beheren

Niet-voorradige producten vormen een unieke sitemap-uitdaging voor ecommerce-winkels. De juiste aanpak hangt af van of het product tijdelijk niet beschikbaar of permanent uit het assortiment is, en of de productpagina waardevolle backlinks en zoekautoriteit heeft opgebouwd.

Voor tijdelijk niet-voorradige producten die je verwacht te herbevoorraden, houd de productpagina actief en in je sitemap. Werk de pagina bij om duidelijk aan te geven dat het product momenteel niet beschikbaar is en bied alternatieven of een herbevoorrading-notificatie aan.

Voor permanent uit het assortiment genomen producten zonder SEO-waarde, verwijder ze uit je sitemap en uiteindelijk van de site. Laat ze natuurlijk 404 retourneren.

Voor uit het assortiment genomen producten met significante backlinkautoriteit, implementeer een 301-redirect naar het meest relevante vervangingsproduct of categoriepagina. Verwijder de uit-assortiment-URL uit je sitemap en voeg de redirect-doel-URL toe.

Laat nooit honderden 404-retournerende uit-assortiment product-URL's in je sitemap staan. Dit ondermijnt Google's vertrouwen in de nauwkeurigheid van je sitemap en verspilt crawlbudget. Voer een kwartaalreiniging uit om alle niet-200 URL's uit je sitemapbestanden te verwijderen.

Tijdelijk niet-voorradig: behouden in sitemap met bijgewerkte beschikbaarheidsstatus
Permanent uit assortiment zonder autoriteit: verwijderen uit sitemap, 404 laten retourneren
Uit assortiment met waardevolle backlinks: 301-redirect naar meest relevante pagina
Nooit 404-URL's in je sitemap laten staan; kwartaalreinigingen uitvoeren
Beschikbaarheidsstatus in gestructureerde data bijwerken voor niet-voorradige producten
Tip

Maak een geautomatiseerd proces dat product-URL's uit je sitemap verwijdert wanneer ze meer dan zeven opeenvolgende dagen niet-200 statuscodes retourneren.

Robots.txt en sitemaps coordineren voor maximaal effect

Robots.txt en XML-sitemaps moeten samenwerken als een gecoordineerd systeem. Je robots.txt vertelt zoekmachines wat ze niet moeten crawlen, terwijl je sitemap hen vertelt wat ze moeten prioriteren. Tegenstrijdige signalen tussen deze twee bestanden creeren verwarring en verspilde inspanning.

De meest voorkomende coordinatiefout is het opnemen van URL's in je sitemap die geblokkeerd zijn door robots.txt. Als je robots.txt Disallow: /search bevat en je sitemap URL's bevat als /search?q=populaire-term, stuur je tegenstrijdige signalen. Reinig je sitemap om nul overlap met robots.txt Disallow-regels te garanderen.

Een tweede coordinatieprobleem betreft canonieke URL's. Je sitemap moet alleen de canonieke versie van elke URL bevatten. Als een product toegankelijk is op zowel /products/schoenen als /categorie/schoeisel?product=schoenen, mag alleen de canonieke URL in de sitemap verschijnen.

Voor grote ecommerce-sites, maak een gelaagde crawlstrategie. Gebruik robots.txt om URL-patronen te blokkeren die nooit gecrawld mogen worden. Gebruik sitemaps om proactief te verklaren welke URL's het belangrijkst zijn. Gebruik interne links om crawlprioriteit te versterken voor je meest waardevolle product- en categoriepagina's.

Monitor ten slotte beide bestanden continu. Stel waarschuwingen in voor wijzigingen aan je robots.txt en plan wekelijkse sitemap-validatie. Een deployment die per ongeluk robots.txt wijzigt of sitemap-generatie breekt, kan weken kosten om te herstellen.

Neem nooit URL's in je sitemap op die geblokkeerd zijn door robots.txt
Neem alleen canonieke URL-versies op in je sitemap
Gebruik robots.txt voor blokkeren, sitemaps voor prioriteren en interne links voor versterken
Monitor beide bestanden continu; platformupdates kunnen robots.txt stilletjes wijzigen
Plan wekelijkse sitemap-validatie om nieuw kapotte URL's te detecteren
Tip

Na elke platformupdate of themawijziging, verifieer onmiddellijk je robots.txt en regenereer je sitemap. Vergelijk beide bestanden om te garanderen dat geen sitemap-URL's geblokkeerd zijn en geen kritieke pagina's ontbreken in de sitemap.

Werk samen met SEO-experts die e-commerce begrijpen

Het eerste door e-commerce opgerichte SEO-bureau ter wereld

Robots.txt en XML-sitemaps - EcomSEO Academy | EcomSEO