Technische SEO
12 min leestijdRobots.txt en XML-sitemaps
Je robots.txt-bestand en XML-sitemaps zijn twee van de meest fundamentele technische SEO-bestanden in je ecommerce-winkel. Samen bepalen ze wat zoekmachines kunnen crawlen en bieden ze een routekaart van de pagina's die je geindexeerd wilt hebben. Deze verkeerd instellen kan je beste producten voor Google verbergen of de index overspoelen met filterpagin's van lage waarde die je rankings kannibaliseren.
In this guide
Robots.txt-basisprincipes voor ecommerce
Het robots.txt-bestand staat in de root van je domein (example.com/robots.txt) en geeft crawl-instructies aan zoekmachinebots. Het gebruikt een eenvoudige syntax: User-agent specificeert welke bot de regels betreffen, Disallow blokkeert specifieke URL-paden van crawling, en Allow overschrijft een Disallow voor specifieke sub-paden. Het bestand is publiek toegankelijk, dus gebruik het nooit om gevoelige content te verbergen.
Voor ecommerce-winkels speelt robots.txt een cruciale rol bij het beheren van crawlbudget. Zonder beperkingen proberen bots elke vindbare URL op je site te crawlen, inclusief winkelmandpagina's, afrekenflows, accountpagina's, interne zoekresultaten en duizenden facetnavigatie-URL's. Deze pagina's verspillen crawlbudget en kunnen problemen met dubbele content veroorzaken als ze worden geindexeerd.
Een veelvoorkomend misverstand is dat robots.txt indexering voorkomt. Dat doet het niet. Robots.txt voorkomt alleen crawling. Als een andere pagina linkt naar een geblokkeerde URL, kan Google die URL nog steeds indexeren op basis van ankertekst en omringende context.
Elke ecommerce-winkel moet zijn robots.txt-bestand testen met de robots.txt-testtool in Google Search Console voordat wijzigingen worden doorgevoerd. Een enkel verkeerd geplaatst jokerteken of een te brede Disallow-regel kan per ongeluk je hele productcatalogus blokkeren van crawling.
Bewaar een backup van je robots.txt voordat je wijzigingen aanbrengt. Een kapot robots.txt-bestand dat per ongeluk alles blokkeert (Disallow: /) kan binnen dagen leiden tot catastrofaal verlies van organisch verkeer.
Essentiele robots.txt-regels voor webwinkels
Elke ecommerce robots.txt moet verschillende categorieen URL's van lage waarde blokkeren. Winkelmand- en afrekenpagina's (/cart, /checkout, /account) bieden geen SEO-waarde en bevatten gebruikersspecifieke content. Interne zoekresultatenpagina's (/search?q=) genereren duizenden dunne-contentpagina's die je categorielijsten dupliceren en kunnen leiden tot keyword-kannibalisatie.
Facetnavigatieparameters vertegenwoordigen de grootste bron van crawlverspilling in de meeste winkels. Regels zoals Disallow: /*?color=, Disallow: /*?size=, Disallow: /*?brand= en Disallow: /*?sort= voorkomen dat bots de combinatorische explosie van filter-URL's crawlen. Wees strategisch over welke parameters je blokkeert. Als je winkel sterke SEO-geoptimaliseerde pagina's heeft voor specifieke merken, blokkeer dan niet de merkparameter globaal.
Sorteerparameters moeten altijd worden geblokkeerd. URL's als /categorie?sort=prijs-oplopend en /categorie?sort=nieuwste tonen dezelfde producten in een andere volgorde en voegen nul unieke content toe. Evenzo kunnen paginatieparameters voorbij een redelijke diepte worden beperkt.
Voeg altijd een Sitemap-richtlijn toe onderaan je robots.txt die naar je XML-sitemap wijst. Dit helpt zoekmachines je sitemap te ontdekken. Het formaat is eenvoudig: Sitemap: https://www.example.com/sitemap.xml.
Gebruik jokertekenpatronen voorzichtig. Disallow: /*? zou alle URL's met welke queryparameter dan ook blokkeren, inclusief potentieel waardevolle. Blokkeer in plaats daarvan specifieke parameternamen individueel.
XML-sitemapstructuur voor productcatalogi
Een XML-sitemap is een gestructureerd bestand dat de URL's opsomt die je wilt dat zoekmachines ontdekken en indexeren. Voor ecommerce-winkels met grote productcatalogi is de juiste sitemap-architectuur cruciaal omdat het direct beinvloedt welke pagina's Google prioriseert voor crawling en indexering.
Gebruik een sitemap-indexbestand als je primaire sitemap die verwijst naar meerdere kind-sitemaps georganiseerd per contenttype. Een typische ecommerce-sitemapstructuur omvat aparte sitemaps voor productpagina's (sitemap-products.xml), categoriepagina's (sitemap-categories.xml), blogposts (sitemap-blog.xml) en statische pagina's (sitemap-pages.xml).
Elke XML-sitemap heeft een limiet van 50.000 URL's en 50 MB ongecomprimeerde bestandsgrootte. Voor winkels met meer dan 50.000 producten, splits je productsitemap in meerdere bestanden, idealiter georganiseerd per categorie of afdeling. Deze logische groepering maakt het gemakkelijker om indexeringspercentages per productcategorie te volgen in Google Search Console.
Elke URL in je sitemap moet de canonieke versie van die pagina zijn. Neem nooit URL's op die redirecten, 404-fouten retourneren, noindex-tags hebben of geblokkeerd zijn door robots.txt. Deze URL's opnemen verspilt Google's crawlinspanning en ondermijnt het vertrouwen in de nauwkeurigheid van je sitemapbestand.
Dien je sitemap in via Google Search Console en controleer het dekkingsrapport regelmatig. GSC vertelt je precies hoeveel URL's uit je sitemap zijn geindexeerd, uitgesloten of fouten hadden.
Lastmod, Priority en Changefreq: wat er echt toe doet
XML-sitemaps ondersteunen verschillende optionele attributen voor elke URL: lastmod (datum laatste wijziging), priority (relatief belang van 0,0 tot 1,0) en changefreq (verwachte wijzigingsfrequentie). In de praktijk biedt alleen lastmod betekenisvolle waarde. Google heeft publiekelijk verklaard dat het de attributen priority en changefreq volledig negeert omdat webmasters ze zo vaak onjuist instellen dat ze geen betrouwbaar signaal dragen.
Het lastmod-attribuut vertelt zoekmachines wanneer de content van een pagina voor het laatst inhoudelijk is bijgewerkt. Dit is een echt signaal dat Google gebruikt om re-crawling te prioriteren. Wanneer je de prijs, beschikbaarheid, beschrijving of afbeeldingen van een product bijwerkt, moet de lastmod-datum die wijziging weerspiegelen.
De kritieke fout die veel winkels maken is lastmod instellen op de huidige datum voor alle pagina's elke keer dat de sitemap wordt geregenereerd. Als je sitemap elke nacht wordt herbouwd en elke URL met de datum van vandaag markeert, leert Google snel dat je lastmod-datums betekenisloos zijn. We hebben winkels geaudit waar alleen het corrigeren van onnauwkeurige lastmod-datums resulteerde in 30% snellere indexering van productupdates.
Voor ecommerce specifiek, koppel lastmod aan daadwerkelijke datawijzigingen in je productinformatiesysteem. Wanneer voorraadniveaus veranderen, prijzen worden bijgewerkt, nieuwe reviews worden geplaatst of productbeschrijvingen worden bewerkt, werk dan de lastmod-datum bij voor die specifieke product-URL's.
Na het corrigeren van je lastmod-implementatie, monitor het crawlstatistiekenrapport in Google Search Console. Je zou moeten zien dat Google zijn crawlfocus binnen twee tot vier weken verschuift naar recent bijgewerkte pagina's.
Niet-voorradige producten in sitemaps beheren
Niet-voorradige producten vormen een unieke sitemap-uitdaging voor ecommerce-winkels. De juiste aanpak hangt af van of het product tijdelijk niet beschikbaar of permanent uit het assortiment is, en of de productpagina waardevolle backlinks en zoekautoriteit heeft opgebouwd.
Voor tijdelijk niet-voorradige producten die je verwacht te herbevoorraden, houd de productpagina actief en in je sitemap. Werk de pagina bij om duidelijk aan te geven dat het product momenteel niet beschikbaar is en bied alternatieven of een herbevoorrading-notificatie aan.
Voor permanent uit het assortiment genomen producten zonder SEO-waarde, verwijder ze uit je sitemap en uiteindelijk van de site. Laat ze natuurlijk 404 retourneren.
Voor uit het assortiment genomen producten met significante backlinkautoriteit, implementeer een 301-redirect naar het meest relevante vervangingsproduct of categoriepagina. Verwijder de uit-assortiment-URL uit je sitemap en voeg de redirect-doel-URL toe.
Laat nooit honderden 404-retournerende uit-assortiment product-URL's in je sitemap staan. Dit ondermijnt Google's vertrouwen in de nauwkeurigheid van je sitemap en verspilt crawlbudget. Voer een kwartaalreiniging uit om alle niet-200 URL's uit je sitemapbestanden te verwijderen.
Maak een geautomatiseerd proces dat product-URL's uit je sitemap verwijdert wanneer ze meer dan zeven opeenvolgende dagen niet-200 statuscodes retourneren.
Robots.txt en sitemaps coordineren voor maximaal effect
Robots.txt en XML-sitemaps moeten samenwerken als een gecoordineerd systeem. Je robots.txt vertelt zoekmachines wat ze niet moeten crawlen, terwijl je sitemap hen vertelt wat ze moeten prioriteren. Tegenstrijdige signalen tussen deze twee bestanden creeren verwarring en verspilde inspanning.
De meest voorkomende coordinatiefout is het opnemen van URL's in je sitemap die geblokkeerd zijn door robots.txt. Als je robots.txt Disallow: /search bevat en je sitemap URL's bevat als /search?q=populaire-term, stuur je tegenstrijdige signalen. Reinig je sitemap om nul overlap met robots.txt Disallow-regels te garanderen.
Een tweede coordinatieprobleem betreft canonieke URL's. Je sitemap moet alleen de canonieke versie van elke URL bevatten. Als een product toegankelijk is op zowel /products/schoenen als /categorie/schoeisel?product=schoenen, mag alleen de canonieke URL in de sitemap verschijnen.
Voor grote ecommerce-sites, maak een gelaagde crawlstrategie. Gebruik robots.txt om URL-patronen te blokkeren die nooit gecrawld mogen worden. Gebruik sitemaps om proactief te verklaren welke URL's het belangrijkst zijn. Gebruik interne links om crawlprioriteit te versterken voor je meest waardevolle product- en categoriepagina's.
Monitor ten slotte beide bestanden continu. Stel waarschuwingen in voor wijzigingen aan je robots.txt en plan wekelijkse sitemap-validatie. Een deployment die per ongeluk robots.txt wijzigt of sitemap-generatie breekt, kan weken kosten om te herstellen.
Na elke platformupdate of themawijziging, verifieer onmiddellijk je robots.txt en regenereer je sitemap. Vergelijk beide bestanden om te garanderen dat geen sitemap-URL's geblokkeerd zijn en geen kritieke pagina's ontbreken in de sitemap.
Gratis tools & bronnen
Werk samen met SEO-experts die e-commerce begrijpen
Het eerste door e-commerce opgerichte SEO-bureau ter wereld