SEO Technique
12 min de lectureRobots.txt et sitemaps XML
Votre fichier robots.txt et vos sitemaps XML sont deux des fichiers [SEO technique](/blog/technical-seo-for-ecommerce)s les plus fondamentaux de votre boutique e-commerce. Ensemble, ils controlent ce que les moteurs de recherche peuvent explorer et fournissent une feuille de route des pages que vous souhaitez indexer. Les configurer incorrectement peut cacher vos meilleurs produits a Google ou inonder l'index de pages de filtres sans valeur qui cannibalisent vos classements. Les deux fichiers jouent un rôle central dans la [gestion du budget de crawl](/academy/crawl-budget-management).
In this guide
- 1. Fondamentaux du robots.txt pour le e-commerce
- 2. Règles robots.txt essentielles pour les boutiques en ligne
- 3. Structure des sitemaps XML pour les catalogues produits
- 4. Lastmod, Priority et Changefreq : ce qui compte vraiment
- 5. Gerer les produits en rupture de stock dans les sitemaps
- 6. Coordonner robots.txt et sitemaps pour un impact maximum
Fondamentaux du robots.txt pour le e-commerce
Le fichier robots.txt se trouve a la racine de votre domaine (example.com/robots.txt) et fournit des directives de crawl aux robots des moteurs de recherche. Il utilise une syntaxe simple : User-agent specifie quel robot est concerne, Disallow bloque des chemins d'URL spécifiques du crawl, et Allow annule un Disallow pour des sous-chemins spécifiques. Le fichier est accessible publiquement, ne l'utilisez donc jamais pour cacher du contenu sensible.
Pour les boutiques e-commerce, robots.txt joue un role essentiel dans la gestion du budget de crawl. Sans restrictions, les robots tenteront d'explorer chaque URL decouvrable sur votre site, y compris les pages panier, les flux de paiement, les pages de compte, les resultats de recherche interne et des milliers d'URLs de navigation a facettes. Ces pages gaspillent le budget de crawl et peuvent créer des problemes de contenu duplique si elles sont indexees.
Une idee recue courante est que robots.txt empeche l'indexation. Ce n'est pas le cas. Robots.txt empeche uniquement le crawl. Si une autre page contient un lien vers une URL bloquee, Google peut quand meme indexer cette URL en se basant sur le texte d'ancrage et le contexte environnant, l'affichant dans les resultats de recherche avec le message "Aucune information disponible pour cette page."
Chaque boutique e-commerce devrait tester son fichier robots.txt en utilisant l'outil de test robots.txt de Google Search Console avant de deployer des modifications. Un seul caractere joker mal place ou une règle Disallow trop large peut accidentellement bloquer l'ensemble de votre catalogue produit.
Conservez une sauvegarde de votre robots.txt avant toute modification. Un fichier robots.txt defaillant qui bloque accidentellement tout (Disallow: /) peut causer une perte catastrophique de trafic organique en quelques jours.
Règles robots.txt essentielles pour les boutiques en ligne
Chaque robots.txt e-commerce devrait bloquer plusieurs catégories d'URLs sans valeur. Les pages panier et paiement (/cart, /checkout, /account) n'apportent aucune valeur SEO et contiennent du contenu spécifique a l'utilisateur. Les pages de resultats de recherche interne (/search?q=) generent des milliers de pages a contenu mince qui dupliquent vos listings de catégories et peuvent mener a la cannibalisation de mots-clés.
Les parametres de navigation a facettes representent la plus grande source de gaspillage de crawl. Des règles comme Disallow: /*?color=, Disallow: /*?size=, Disallow: /*?brand= et Disallow: /*?sort= empechent les robots d'explorer l'explosion combinatoire des URLs de filtres. Soyez strategique dans le choix des parametres a bloquer. Si votre boutique a des pages SEO optimisees pour certaines marques, ne bloquez pas le parametre marque globalement.
Les parametres de tri devraient toujours etre bloques. Des URLs comme /catégorie?sort=prix-croissant et /catégorie?sort=plus-recents montrent les memes produits dans un ordre différent et n'ajoutent aucun contenu unique. De meme, les parametres de pagination au-dela d'une profondeur raisonnable peuvent etre restreints.
Incluez toujours une directive Sitemap en bas de votre robots.txt pointant vers votre sitemap XML. Cela aide les moteurs de recherche a decouvrir votre sitemap. Le format est simple : Sitemap: https://www.example.com/sitemap.xml. Vous pouvez lister plusieurs sitemaps si vous utilisez un fichier index de sitemaps.
Null-Ueberschneidungs-Regel
N'incluez jamais d'URL dans votre plan de site qui sont bloquées par robots.txt. Cette contradiction gaspille les efforts de Google et érode la confiance dans les deux fichiers. Référence croisée après chaque mise à jour de la plateforme.
Utilisez les caracteres joker avec prudence. Disallow: /*? bloquerait toutes les URLs avec n'importe quel parametre de requete, y compris les potentiellement precieux. Bloquez plutot les noms de parametres spécifiques individuellement.
Structure des sitemaps XML pour les catalogues produits
Un sitemap XML est un fichier structure qui liste les URLs que vous voulez que les moteurs de recherche decouvrent et indexent. Pour les boutiques e-commerce avec de grands catalogues, une architecture de sitemap appropriee est essentielle car elle influence directement quelles pages Google priorise pour le crawl et l'indexation.
Utilisez un fichier index de sitemaps comme sitemap principal qui référence plusieurs sitemaps enfants organises par type de contenu. Une structure de sitemap e-commerce typique inclut des sitemaps separes pour les pages produits (sitemap-products.xml), les pages catégorie (sitemap-categories.xml), les articles de blog (sitemap-blog.xml) et les pages statiques (sitemap-pages.xml).
Chaque sitemap XML a une limite de 50 000 URLs et 50 Mo de taille non compressee. Pour les boutiques avec plus de 50 000 produits, divisez votre sitemap produits en plusieurs fichiers, idealement organises par catégorie ou departement. Ce regroupement logique facilite le suivi des taux d'indexation par catégorie de produits dans Google Search Console.
Chaque URL dans votre sitemap devrait etre la version canonique de cette page. N'incluez jamais d'URLs qui redirigent, retournent des erreurs 404, ont des balises noindex ou sont bloquees par robots.txt. Inclure ces URLs gaspille l'effort de crawl de Google et erode la confiance dans la fiabilite de votre fichier sitemap.
Soumettez votre sitemap via Google Search Console et vérifiez le rapport de couverture régulièrement. GSC vous indiquera exactement combien d'URLs de votre sitemap ont ete indexees, exclues ou ont eu des erreurs. Soumettez votre sitemap via la Google Search Console et vérifiez le rapport de couverture régulièrement.
Lastmod, Priority et Changefreq : ce qui compte vraiment
Les sitemaps XML supportent plusieurs attributs optionnels pour chaque URL : lastmod (date de derniere modification), priority (importance relative de 0,0 a 1,0) et changefreq (fréquence de changement attendue). En pratique, seul lastmod apporte une valeur reelle. Google a publiquement declare qu'il ignore complètement les attributs priority et changefreq car les webmasters les definissent si souvent incorrectement qu'ils ne portent aucun signal fiable.
L'attribut lastmod indique aux moteurs de recherche quand le contenu d'une page a ete significativement mis a jour pour la derniere fois. C'est un veritable signal que Google utilise pour prioriser le recrawl. Quand vous mettez a jour le prix, la disponibilite, la description ou les images d'un produit, la date lastmod devrait refleter ce changement.
L'erreur critique que font de nombreuses boutiques est de définir lastmod a la date du jour pour toutes les pages a chaque regeneration du sitemap. Si votre sitemap se reconstruit chaque nuit et marque chaque URL avec la date du jour, Google apprend rapidement que vos dates lastmod sont insignifiantes. Nous avons audite des boutiques ou la seule correction des dates lastmod inexactes a resulte en une indexation 30 % plus rapide des mises a jour produits.
Pour le e-commerce spécifiquement, liez lastmod aux changements reels de données dans votre système de gestion d'informations produits. Quand les niveaux de stock changent, quand les prix sont mis a jour, quand de nouveaux avis sont publies, mettez a jour la date lastmod pour ces URLs produit spécifiques.
Après avoir corrige votre implémentation lastmod, surveillez le rapport de statistiques de crawl dans Google Search Console. Vous devriez voir Google reorienter son crawl vers les pages recemment mises a jour dans les deux a quatre semaines.
Gerer les produits en rupture de stock dans les sitemaps
Les produits en rupture de stock presentent un defi unique pour les sitemaps e-commerce. L'approche correcte depend de si le produit est temporairement indisponible ou définitivement arrete, et si la page produit a accumule des backlinks et de l'autorite de recherche precieux.
Pour les produits temporairement en rupture que vous prevoyez de reapprovisionner, gardez la page produit active et dans votre sitemap. Mettez a jour la page pour indiquer clairement que le produit est actuellement indisponible et proposez des alternatives ou une inscription de notification de reapprovisionnement. Les données structurees doivent refleter le statut de disponibilite en rupture.
Pour les produits définitivement arretes sans valeur SEO (peu ou pas de backlinks, trafic organique minimal), retirez-les de votre sitemap et eventuellement du site. Laissez-les retourner naturellement une 404.
Pour les produits arretes avec une autorite de backlinks significative, implementez une redirection 301 vers le produit de remplacement ou la page de catégorie la plus pertinente. Retirez l'URL arretee de votre sitemap et ajoutez l'URL cible de redirection si elle n'y est pas déjà.
Ne laissez jamais des centaines d'URLs de produits arretes retournant des 404 dans votre sitemap. Cela erode la confiance de Google dans la fiabilite de votre sitemap et gaspille le budget de crawl. Effectuez un nettoyage trimestriel pour retirer toute URL non-200 de vos fichiers sitemap.
Lastmod-Fehler
Les magasins qui fixent toutes les dates de dernière modification à la date d'aujourd'hui à chaque reconstruction de plan de site apprennent à Google à ignorer complètement le signal. Corrigez ce problème en liant lastmod aux changements réels de prix, de stock ou de description.
Creez un processus automatisé qui retire les URLs produits de votre sitemap quand elles retournent des codes de statut non-200 pendant plus de sept jours consecutifs.
Coordonner robots.txt et sitemaps pour un impact maximum
Robots.txt et sitemaps XML doivent fonctionner ensemble comme un système coordonne. Votre robots.txt indique aux moteurs de recherche ce qu'il ne faut pas explorer, tandis que votre sitemap leur dit ce qu'il faut prioriser. Des signaux contradictoires entre ces deux fichiers creent de la confusion et du gaspillage.
L'echec de coordination le plus courant est d'inclure dans votre sitemap des URLs bloquees par robots.txt. Si votre robots.txt contient Disallow: /search et que votre sitemap inclut des URLs comme /search?q=terme-populaire, vous envoyez des signaux contradictoires. Nettoyez votre sitemap pour assurer zero chevauchement avec les règles Disallow du robots.txt.
Un deuxieme probleme de coordination concerne les URLs canoniques. Votre sitemap ne devrait contenir que la version canonique de chaque URL. Si un produit est accessible a /products/chaussures et a /catégorie/chaussures?product=chaussures, seule l'URL canonique devrait apparaitre dans le sitemap.
Pour les grands sites e-commerce, creez une stratégie de crawl par paliers. Utilisez robots.txt pour bloquer les patterns d'URL qui ne devraient jamais etre explores. Utilisez les sitemaps pour declarer proactivement quelles URLs sont les plus importantes. Utilisez le maillage interne pour renforcer la priorite de crawl pour vos pages produits et catégories les plus precieuses.
Enfin, surveillez les deux fichiers en continu. Configurez des alertes pour les changements de votre robots.txt et planifiez une validation hebdomadaire du sitemap. Un deploiement qui modifie accidentellement le robots.txt ou casse la génération du sitemap peut prendre des semaines a recuperer.
Après chaque mise a jour de plateforme ou changement de theme, vérifiez immediatement votre robots.txt et regenerez votre sitemap. Croisez les deux fichiers pour vous assurer qu'aucune URL du sitemap n'est bloquee et qu'aucune page critique ne manque dans le sitemap.
Outils et ressources gratuits
Nos outils SEO gratuits
Travaillez avec des experts SEO qui comprennent l’e-commerce
La première agence SEO fondée par des e-commerçants