SEO Technique

12 min de lecture

Robots.txt et sitemaps XML

Votre fichier robots.txt et vos sitemaps XML sont deux des fichiers SEO techniques les plus fondamentaux de votre boutique e-commerce. Ensemble, ils controlent ce que les moteurs de recherche peuvent explorer et fournissent une feuille de route des pages que vous souhaitez indexer. Les configurer incorrectement peut cacher vos meilleurs produits a Google ou inonder l'index de pages de filtres sans valeur qui cannibalisent vos classements.

In this guide

1. Fondamentaux du robots.txt pour le e-commerce
2. Regles robots.txt essentielles pour les boutiques en ligne
3. Structure des sitemaps XML pour les catalogues produits
4. Lastmod, Priority et Changefreq : ce qui compte vraiment
5. Gerer les produits en rupture de stock dans les sitemaps
6. Coordonner robots.txt et sitemaps pour un impact maximum

Fondamentaux du robots.txt pour le e-commerce

Le fichier robots.txt se trouve a la racine de votre domaine (example.com/robots.txt) et fournit des directives de crawl aux robots des moteurs de recherche. Il utilise une syntaxe simple : User-agent specifie quel robot est concerne, Disallow bloque des chemins d'URL specifiques du crawl, et Allow annule un Disallow pour des sous-chemins specifiques. Le fichier est accessible publiquement, ne l'utilisez donc jamais pour cacher du contenu sensible.

Pour les boutiques e-commerce, robots.txt joue un role essentiel dans la gestion du budget de crawl. Sans restrictions, les robots tenteront d'explorer chaque URL decouvrable sur votre site, y compris les pages panier, les flux de paiement, les pages de compte, les resultats de recherche interne et des milliers d'URLs de navigation a facettes. Ces pages gaspillent le budget de crawl et peuvent creer des problemes de contenu duplique si elles sont indexees.

Une idee recue courante est que robots.txt empeche l'indexation. Ce n'est pas le cas. Robots.txt empeche uniquement le crawl. Si une autre page contient un lien vers une URL bloquee, Google peut quand meme indexer cette URL en se basant sur le texte d'ancrage et le contexte environnant, l'affichant dans les resultats de recherche avec le message "Aucune information disponible pour cette page."

Chaque boutique e-commerce devrait tester son fichier robots.txt en utilisant l'outil de test robots.txt de Google Search Console avant de deployer des modifications. Un seul caractere joker mal place ou une regle Disallow trop large peut accidentellement bloquer l'ensemble de votre catalogue produit.

Robots.txt se trouve a la racine de votre domaine et controle quelles URLs les robots peuvent explorer

User-agent, Disallow et Allow sont les trois directives principales

Robots.txt empeche le crawl, pas l'indexation ; les pages bloquees peuvent toujours apparaitre dans les resultats

Testez toujours les modifications du robots.txt dans Google Search Console avant deploiement

Tip

Conservez une sauvegarde de votre robots.txt avant toute modification. Un fichier robots.txt defaillant qui bloque accidentellement tout (Disallow: /) peut causer une perte catastrophique de trafic organique en quelques jours.

Regles robots.txt essentielles pour les boutiques en ligne

Chaque robots.txt e-commerce devrait bloquer plusieurs categories d'URLs sans valeur. Les pages panier et paiement (/cart, /checkout, /account) n'apportent aucune valeur SEO et contiennent du contenu specifique a l'utilisateur. Les pages de resultats de recherche interne (/search?q=) generent des milliers de pages a contenu mince qui dupliquent vos listings de categories et peuvent mener a la cannibalisation de mots-cles.

Les parametres de navigation a facettes representent la plus grande source de gaspillage de crawl. Des regles comme Disallow: /*?color=, Disallow: /*?size=, Disallow: /*?brand= et Disallow: /*?sort= empechent les robots d'explorer l'explosion combinatoire des URLs de filtres. Soyez strategique dans le choix des parametres a bloquer. Si votre boutique a des pages SEO optimisees pour certaines marques, ne bloquez pas le parametre marque globalement.

Les parametres de tri devraient toujours etre bloques. Des URLs comme /categorie?sort=prix-croissant et /categorie?sort=plus-recents montrent les memes produits dans un ordre different et n'ajoutent aucun contenu unique. De meme, les parametres de pagination au-dela d'une profondeur raisonnable peuvent etre restreints.

Incluez toujours une directive Sitemap en bas de votre robots.txt pointant vers votre sitemap XML. Cela aide les moteurs de recherche a decouvrir votre sitemap. Le format est simple : Sitemap: https://www.example.com/sitemap.xml. Vous pouvez lister plusieurs sitemaps si vous utilisez un fichier index de sitemaps.

Bloquer les pages panier, paiement et compte du crawl

Bloquer les URLs de recherche interne pour empecher l'indexation de contenu mince

Bloquer les parametres de navigation a facettes selectivement, en preservant les pages filtre SEO precieuses

Toujours bloquer les parametres de tri car ils ne creent aucun contenu unique

Inclure l'URL de votre sitemap en bas du robots.txt pour la decouverte

Tip

Utilisez les caracteres joker avec prudence. Disallow: /*? bloquerait toutes les URLs avec n'importe quel parametre de requete, y compris les potentiellement precieux. Bloquez plutot les noms de parametres specifiques individuellement.

Structure des sitemaps XML pour les catalogues produits

Un sitemap XML est un fichier structure qui liste les URLs que vous voulez que les moteurs de recherche decouvrent et indexent. Pour les boutiques e-commerce avec de grands catalogues, une architecture de sitemap appropriee est essentielle car elle influence directement quelles pages Google priorise pour le crawl et l'indexation.

Utilisez un fichier index de sitemaps comme sitemap principal qui reference plusieurs sitemaps enfants organises par type de contenu. Une structure de sitemap e-commerce typique inclut des sitemaps separes pour les pages produits (sitemap-products.xml), les pages categorie (sitemap-categories.xml), les articles de blog (sitemap-blog.xml) et les pages statiques (sitemap-pages.xml).

Chaque sitemap XML a une limite de 50 000 URLs et 50 Mo de taille non compressee. Pour les boutiques avec plus de 50 000 produits, divisez votre sitemap produits en plusieurs fichiers, idealement organises par categorie ou departement. Ce regroupement logique facilite le suivi des taux d'indexation par categorie de produits dans Google Search Console.

Chaque URL dans votre sitemap devrait etre la version canonique de cette page. N'incluez jamais d'URLs qui redirigent, retournent des erreurs 404, ont des balises noindex ou sont bloquees par robots.txt. Inclure ces URLs gaspille l'effort de crawl de Google et erode la confiance dans la fiabilite de votre fichier sitemap.

Utilisez un fichier index de sitemaps referencant des sitemaps enfants separees par type de contenu

Respectez la limite de 50 000 URLs et 50 Mo par fichier sitemap

Divisez les grands catalogues en fichiers sitemap bases sur les categories

N'incluez que des URLs canoniques et indexables retournant le code 200

N'incluez jamais d'URLs redirigees, noindexees ou bloquees par robots.txt dans les sitemaps

Tip

Soumettez votre sitemap via Google Search Console et verifiez le rapport de couverture regulierement. GSC vous indiquera exactement combien d'URLs de votre sitemap ont ete indexees, exclues ou ont eu des erreurs.

Lastmod, Priority et Changefreq : ce qui compte vraiment

Les sitemaps XML supportent plusieurs attributs optionnels pour chaque URL : lastmod (date de derniere modification), priority (importance relative de 0,0 a 1,0) et changefreq (frequence de changement attendue). En pratique, seul lastmod apporte une valeur reelle. Google a publiquement declare qu'il ignore completement les attributs priority et changefreq car les webmasters les definissent si souvent incorrectement qu'ils ne portent aucun signal fiable.

L'attribut lastmod indique aux moteurs de recherche quand le contenu d'une page a ete significativement mis a jour pour la derniere fois. C'est un veritable signal que Google utilise pour prioriser le recrawl. Quand vous mettez a jour le prix, la disponibilite, la description ou les images d'un produit, la date lastmod devrait refleter ce changement.

L'erreur critique que font de nombreuses boutiques est de definir lastmod a la date du jour pour toutes les pages a chaque regeneration du sitemap. Si votre sitemap se reconstruit chaque nuit et marque chaque URL avec la date du jour, Google apprend rapidement que vos dates lastmod sont insignifiantes. Nous avons audite des boutiques ou la seule correction des dates lastmod inexactes a resulte en une indexation 30 % plus rapide des mises a jour produits.

Pour le e-commerce specifiquement, liez lastmod aux changements reels de donnees dans votre systeme de gestion d'informations produits. Quand les niveaux de stock changent, quand les prix sont mis a jour, quand de nouveaux avis sont publies, mettez a jour la date lastmod pour ces URLs produit specifiques.

Lastmod est le seul attribut de sitemap que Google utilise reellement comme signal de crawl

Google ignore publiquement les valeurs priority et changefreq definies par les webmasters

Definir tous les lastmod a la date du jour detruit le signal pour Google

Liez les dates lastmod aux vrais changements de contenu : mises a jour de prix, nouveaux avis, modifications de descriptions

Tip

Apres avoir corrige votre implementation lastmod, surveillez le rapport de statistiques de crawl dans Google Search Console. Vous devriez voir Google reorienter son crawl vers les pages recemment mises a jour dans les deux a quatre semaines.

Gerer les produits en rupture de stock dans les sitemaps

Les produits en rupture de stock presentent un defi unique pour les sitemaps e-commerce. L'approche correcte depend de si le produit est temporairement indisponible ou definitivement arrete, et si la page produit a accumule des backlinks et de l'autorite de recherche precieux.

Pour les produits temporairement en rupture que vous prevoyez de reapprovisionner, gardez la page produit active et dans votre sitemap. Mettez a jour la page pour indiquer clairement que le produit est actuellement indisponible et proposez des alternatives ou une inscription de notification de reapprovisionnement. Les donnees structurees doivent refleter le statut de disponibilite en rupture.

Pour les produits definitivement arretes sans valeur SEO (peu ou pas de backlinks, trafic organique minimal), retirez-les de votre sitemap et eventuellement du site. Laissez-les retourner naturellement une 404.

Pour les produits arretes avec une autorite de backlinks significative, implementez une redirection 301 vers le produit de remplacement ou la page de categorie la plus pertinente. Retirez l'URL arretee de votre sitemap et ajoutez l'URL cible de redirection si elle n'y est pas deja.

Ne laissez jamais des centaines d'URLs de produits arretes retournant des 404 dans votre sitemap. Cela erode la confiance de Google dans la fiabilite de votre sitemap et gaspille le budget de crawl. Effectuez un nettoyage trimestriel pour retirer toute URL non-200 de vos fichiers sitemap.

Temporairement en rupture : garder dans le sitemap avec statut de disponibilite mis a jour

Definitivement arrete sans autorite : retirer du sitemap, laisser retourner 404

Arrete avec backlinks precieux : redirection 301 vers la page pertinente la plus proche

Ne jamais laisser d'URLs 404 dans votre sitemap ; effectuer des nettoyages trimestriels

Mettre a jour le statut de disponibilite dans les donnees structurees pour les produits en rupture

Tip

Creez un processus automatise qui retire les URLs produits de votre sitemap quand elles retournent des codes de statut non-200 pendant plus de sept jours consecutifs.

Coordonner robots.txt et sitemaps pour un impact maximum

Robots.txt et sitemaps XML doivent fonctionner ensemble comme un systeme coordonne. Votre robots.txt indique aux moteurs de recherche ce qu'il ne faut pas explorer, tandis que votre sitemap leur dit ce qu'il faut prioriser. Des signaux contradictoires entre ces deux fichiers creent de la confusion et du gaspillage.

L'echec de coordination le plus courant est d'inclure dans votre sitemap des URLs bloquees par robots.txt. Si votre robots.txt contient Disallow: /search et que votre sitemap inclut des URLs comme /search?q=terme-populaire, vous envoyez des signaux contradictoires. Nettoyez votre sitemap pour assurer zero chevauchement avec les regles Disallow du robots.txt.

Un deuxieme probleme de coordination concerne les URLs canoniques. Votre sitemap ne devrait contenir que la version canonique de chaque URL. Si un produit est accessible a /products/chaussures et a /categorie/chaussures?product=chaussures, seule l'URL canonique devrait apparaitre dans le sitemap.

Pour les grands sites e-commerce, creez une strategie de crawl par paliers. Utilisez robots.txt pour bloquer les patterns d'URL qui ne devraient jamais etre explores. Utilisez les sitemaps pour declarer proactivement quelles URLs sont les plus importantes. Utilisez le maillage interne pour renforcer la priorite de crawl pour vos pages produits et categories les plus precieuses.

Enfin, surveillez les deux fichiers en continu. Configurez des alertes pour les changements de votre robots.txt et planifiez une validation hebdomadaire du sitemap. Un deploiement qui modifie accidentellement le robots.txt ou casse la generation du sitemap peut prendre des semaines a recuperer.

N'incluez jamais dans votre sitemap des URLs bloquees par robots.txt

N'incluez que les versions canoniques des URLs dans votre sitemap

Utilisez robots.txt pour bloquer, les sitemaps pour prioriser et les liens internes pour renforcer

Surveillez les deux fichiers en continu ; les mises a jour de plateforme peuvent modifier silencieusement robots.txt

Planifiez une validation hebdomadaire du sitemap pour detecter les URLs nouvellement cassees

Tip

Apres chaque mise a jour de plateforme ou changement de theme, verifiez immediatement votre robots.txt et regenerez votre sitemap. Croisez les deux fichiers pour vous assurer qu'aucune URL du sitemap n'est bloquee et qu'aucune page critique ne manque dans le sitemap.

Outils et ressources gratuits

Google Robots.txt Specification Google Sitemap Documentation XML Sitemaps Generator

Technical SEO

Canonical Tags for Ecommerce

Technical SEO

Faceted Navigation SEO

Travaillez avec des experts SEO qui comprennent l’e-commerce

La première agence SEO fondée par des e-commerçants

Nous contacter