SEO Technique

12 min de lecture

Robots.txt et sitemaps XML

Votre fichier robots.txt et vos sitemaps XML sont deux des fichiers [SEO technique](/blog/technical-seo-for-ecommerce)s les plus fondamentaux de votre boutique e-commerce. Ensemble, ils controlent ce que les moteurs de recherche peuvent explorer et fournissent une feuille de route des pages que vous souhaitez indexer. Les configurer incorrectement peut cacher vos meilleurs produits a Google ou inonder l'index de pages de filtres sans valeur qui cannibalisent vos classements. Les deux fichiers jouent un rôle central dans la [gestion du budget de crawl](/academy/crawl-budget-management).

ParFabian van Til— SEO Lead, EcomSEO
·
Dernière revue:

Fondamentaux du robots.txt pour le e-commerce

Le fichier robots.txt se trouve a la racine de votre domaine (example.com/robots.txt) et fournit des directives de crawl aux robots des moteurs de recherche. Il utilise une syntaxe simple : User-agent specifie quel robot est concerne, Disallow bloque des chemins d'URL spécifiques du crawl, et Allow annule un Disallow pour des sous-chemins spécifiques. Le fichier est accessible publiquement, ne l'utilisez donc jamais pour cacher du contenu sensible.

Pour les boutiques e-commerce, robots.txt joue un role essentiel dans la gestion du budget de crawl. Sans restrictions, les robots tenteront d'explorer chaque URL decouvrable sur votre site, y compris les pages panier, les flux de paiement, les pages de compte, les resultats de recherche interne et des milliers d'URLs de navigation a facettes. Ces pages gaspillent le budget de crawl et peuvent créer des problemes de contenu duplique si elles sont indexees.

Une idee recue courante est que robots.txt empeche l'indexation. Ce n'est pas le cas. Robots.txt empeche uniquement le crawl. Si une autre page contient un lien vers une URL bloquee, Google peut quand meme indexer cette URL en se basant sur le texte d'ancrage et le contexte environnant, l'affichant dans les resultats de recherche avec le message "Aucune information disponible pour cette page."

Chaque boutique e-commerce devrait tester son fichier robots.txt en utilisant l'outil de test robots.txt de Google Search Console avant de deployer des modifications. Un seul caractere joker mal place ou une règle Disallow trop large peut accidentellement bloquer l'ensemble de votre catalogue produit.

Robots.txt se trouve a la racine de votre domaine et contrôle quelles URLs les robots peuvent explorer
User-agent, Disallow et Allow sont les trois directives principales
Robots.txt empeche le crawl, pas l'indexation ; les pages bloquees peuvent toujours apparaitre dans les resultats
Testez toujours les modifications du robots.txt dans Google Search Console avant deploiement
Tip

Conservez une sauvegarde de votre robots.txt avant toute modification. Un fichier robots.txt defaillant qui bloque accidentellement tout (Disallow: /) peut causer une perte catastrophique de trafic organique en quelques jours.

Règles robots.txt essentielles pour les boutiques en ligne

Chaque robots.txt e-commerce devrait bloquer plusieurs catégories d'URLs sans valeur. Les pages panier et paiement (/cart, /checkout, /account) n'apportent aucune valeur SEO et contiennent du contenu spécifique a l'utilisateur. Les pages de resultats de recherche interne (/search?q=) generent des milliers de pages a contenu mince qui dupliquent vos listings de catégories et peuvent mener a la cannibalisation de mots-clés.

Les parametres de navigation a facettes representent la plus grande source de gaspillage de crawl. Des règles comme Disallow: /*?color=, Disallow: /*?size=, Disallow: /*?brand= et Disallow: /*?sort= empechent les robots d'explorer l'explosion combinatoire des URLs de filtres. Soyez strategique dans le choix des parametres a bloquer. Si votre boutique a des pages SEO optimisees pour certaines marques, ne bloquez pas le parametre marque globalement.

Les parametres de tri devraient toujours etre bloques. Des URLs comme /catégorie?sort=prix-croissant et /catégorie?sort=plus-recents montrent les memes produits dans un ordre différent et n'ajoutent aucun contenu unique. De meme, les parametres de pagination au-dela d'une profondeur raisonnable peuvent etre restreints.

Incluez toujours une directive Sitemap en bas de votre robots.txt pointant vers votre sitemap XML. Cela aide les moteurs de recherche a decouvrir votre sitemap. Le format est simple : Sitemap: https://www.example.com/sitemap.xml. Vous pouvez lister plusieurs sitemaps si vous utilisez un fichier index de sitemaps.

Null-Ueberschneidungs-Regel

N'incluez jamais d'URL dans votre plan de site qui sont bloquées par robots.txt. Cette contradiction gaspille les efforts de Google et érode la confiance dans les deux fichiers. Référence croisée après chaque mise à jour de la plateforme.

Schéma montrant le fichier robots.txt bloquant les URL de faible valeur à gauche tandis que les plans de site XML donnent la priorité aux URL de produits, de catégories et de blogs de valeur à droite
Les plans de site Robots.txt et XML doivent fonctionner comme un système coordonné : bloquez ce qui ne doit pas être exploré, priorisez ce qui doit le faire.
Bloquer les pages panier, paiement et compte du crawl
Bloquer les URLs de recherche interne pour empecher l'indexation de contenu mince
Bloquer les parametres de navigation a facettes selectivement, en preservant les pages filtre SEO precieuses
Toujours bloquer les parametres de tri car ils ne creent aucun contenu unique
Inclure l'URL de votre sitemap en bas du robots.txt pour la decouverte
Tip

Utilisez les caracteres joker avec prudence. Disallow: /*? bloquerait toutes les URLs avec n'importe quel parametre de requete, y compris les potentiellement precieux. Bloquez plutot les noms de parametres spécifiques individuellement.

Structure des sitemaps XML pour les catalogues produits

Un sitemap XML est un fichier structure qui liste les URLs que vous voulez que les moteurs de recherche decouvrent et indexent. Pour les boutiques e-commerce avec de grands catalogues, une architecture de sitemap appropriee est essentielle car elle influence directement quelles pages Google priorise pour le crawl et l'indexation.

Utilisez un fichier index de sitemaps comme sitemap principal qui référence plusieurs sitemaps enfants organises par type de contenu. Une structure de sitemap e-commerce typique inclut des sitemaps separes pour les pages produits (sitemap-products.xml), les pages catégorie (sitemap-categories.xml), les articles de blog (sitemap-blog.xml) et les pages statiques (sitemap-pages.xml).

Chaque sitemap XML a une limite de 50 000 URLs et 50 Mo de taille non compressee. Pour les boutiques avec plus de 50 000 produits, divisez votre sitemap produits en plusieurs fichiers, idealement organises par catégorie ou departement. Ce regroupement logique facilite le suivi des taux d'indexation par catégorie de produits dans Google Search Console.

Chaque URL dans votre sitemap devrait etre la version canonique de cette page. N'incluez jamais d'URLs qui redirigent, retournent des erreurs 404, ont des balises noindex ou sont bloquees par robots.txt. Inclure ces URLs gaspille l'effort de crawl de Google et erode la confiance dans la fiabilite de votre fichier sitemap.

Utilisez un fichier index de sitemaps referencant des sitemaps enfants separees par type de contenu
Respectez la limite de 50 000 URLs et 50 Mo par fichier sitemap
Divisez les grands catalogues en fichiers sitemap bases sur les catégories
N'incluez que des URLs canoniques et indexables retournant le code 200
N'incluez jamais d'URLs redirigees, noindexees ou bloquees par robots.txt dans les sitemaps
Tip

Soumettez votre sitemap via Google Search Console et vérifiez le rapport de couverture régulièrement. GSC vous indiquera exactement combien d'URLs de votre sitemap ont ete indexees, exclues ou ont eu des erreurs. Soumettez votre sitemap via la Google Search Console et vérifiez le rapport de couverture régulièrement.

Lastmod, Priority et Changefreq : ce qui compte vraiment

Les sitemaps XML supportent plusieurs attributs optionnels pour chaque URL : lastmod (date de derniere modification), priority (importance relative de 0,0 a 1,0) et changefreq (fréquence de changement attendue). En pratique, seul lastmod apporte une valeur reelle. Google a publiquement declare qu'il ignore complètement les attributs priority et changefreq car les webmasters les definissent si souvent incorrectement qu'ils ne portent aucun signal fiable.

L'attribut lastmod indique aux moteurs de recherche quand le contenu d'une page a ete significativement mis a jour pour la derniere fois. C'est un veritable signal que Google utilise pour prioriser le recrawl. Quand vous mettez a jour le prix, la disponibilite, la description ou les images d'un produit, la date lastmod devrait refleter ce changement.

L'erreur critique que font de nombreuses boutiques est de définir lastmod a la date du jour pour toutes les pages a chaque regeneration du sitemap. Si votre sitemap se reconstruit chaque nuit et marque chaque URL avec la date du jour, Google apprend rapidement que vos dates lastmod sont insignifiantes. Nous avons audite des boutiques ou la seule correction des dates lastmod inexactes a resulte en une indexation 30 % plus rapide des mises a jour produits.

Pour le e-commerce spécifiquement, liez lastmod aux changements reels de données dans votre système de gestion d'informations produits. Quand les niveaux de stock changent, quand les prix sont mis a jour, quand de nouveaux avis sont publies, mettez a jour la date lastmod pour ces URLs produit spécifiques.

Lastmod est le seul attribut de sitemap que Google utilise reellement comme signal de crawl
Google ignore publiquement les valeurs priority et changefreq definies par les webmasters
Définir tous les lastmod a la date du jour detruit le signal pour Google
Liez les dates lastmod aux vrais changements de contenu : mises a jour de prix, nouveaux avis, modifications de descriptions
Tip

Après avoir corrige votre implémentation lastmod, surveillez le rapport de statistiques de crawl dans Google Search Console. Vous devriez voir Google reorienter son crawl vers les pages recemment mises a jour dans les deux a quatre semaines.

Gerer les produits en rupture de stock dans les sitemaps

Les produits en rupture de stock presentent un defi unique pour les sitemaps e-commerce. L'approche correcte depend de si le produit est temporairement indisponible ou définitivement arrete, et si la page produit a accumule des backlinks et de l'autorite de recherche precieux.

Pour les produits temporairement en rupture que vous prevoyez de reapprovisionner, gardez la page produit active et dans votre sitemap. Mettez a jour la page pour indiquer clairement que le produit est actuellement indisponible et proposez des alternatives ou une inscription de notification de reapprovisionnement. Les données structurees doivent refleter le statut de disponibilite en rupture.

Pour les produits définitivement arretes sans valeur SEO (peu ou pas de backlinks, trafic organique minimal), retirez-les de votre sitemap et eventuellement du site. Laissez-les retourner naturellement une 404.

Pour les produits arretes avec une autorite de backlinks significative, implementez une redirection 301 vers le produit de remplacement ou la page de catégorie la plus pertinente. Retirez l'URL arretee de votre sitemap et ajoutez l'URL cible de redirection si elle n'y est pas déjà.

Ne laissez jamais des centaines d'URLs de produits arretes retournant des 404 dans votre sitemap. Cela erode la confiance de Google dans la fiabilite de votre sitemap et gaspille le budget de crawl. Effectuez un nettoyage trimestriel pour retirer toute URL non-200 de vos fichiers sitemap.

Lastmod-Fehler

Les magasins qui fixent toutes les dates de dernière modification à la date d'aujourd'hui à chaque reconstruction de plan de site apprennent à Google à ignorer complètement le signal. Corrigez ce problème en liant lastmod aux changements réels de prix, de stock ou de description.

Comparaison des dates de dernière modification précises liées aux changements de contenu réels par rapport aux implémentations incorrectes où toutes les dates sont définies aujourd'hui
Des dates de dernière modification précises liées aux changements réels entraînent une indexation 30 % plus rapide. Fixer toutes les dates à aujourd’hui détruit entièrement le signal.
Temporairement en rupture : garder dans le sitemap avec statut de disponibilite mis a jour
Définitivement arrete sans autorite : retirer du sitemap, laisser retourner 404
Arrete avec backlinks precieux : redirection 301 vers la page pertinente la plus proche
Ne jamais laisser d'URLs 404 dans votre sitemap ; effectuer des nettoyages trimestriels
Mettre a jour le statut de disponibilite dans les données structurees pour les produits en rupture
Tip

Creez un processus automatisé qui retire les URLs produits de votre sitemap quand elles retournent des codes de statut non-200 pendant plus de sept jours consecutifs.

Coordonner robots.txt et sitemaps pour un impact maximum

Robots.txt et sitemaps XML doivent fonctionner ensemble comme un système coordonne. Votre robots.txt indique aux moteurs de recherche ce qu'il ne faut pas explorer, tandis que votre sitemap leur dit ce qu'il faut prioriser. Des signaux contradictoires entre ces deux fichiers creent de la confusion et du gaspillage.

L'echec de coordination le plus courant est d'inclure dans votre sitemap des URLs bloquees par robots.txt. Si votre robots.txt contient Disallow: /search et que votre sitemap inclut des URLs comme /search?q=terme-populaire, vous envoyez des signaux contradictoires. Nettoyez votre sitemap pour assurer zero chevauchement avec les règles Disallow du robots.txt.

Un deuxieme probleme de coordination concerne les URLs canoniques. Votre sitemap ne devrait contenir que la version canonique de chaque URL. Si un produit est accessible a /products/chaussures et a /catégorie/chaussures?product=chaussures, seule l'URL canonique devrait apparaitre dans le sitemap.

Pour les grands sites e-commerce, creez une stratégie de crawl par paliers. Utilisez robots.txt pour bloquer les patterns d'URL qui ne devraient jamais etre explores. Utilisez les sitemaps pour declarer proactivement quelles URLs sont les plus importantes. Utilisez le maillage interne pour renforcer la priorite de crawl pour vos pages produits et catégories les plus precieuses.

Enfin, surveillez les deux fichiers en continu. Configurez des alertes pour les changements de votre robots.txt et planifiez une validation hebdomadaire du sitemap. Un deploiement qui modifie accidentellement le robots.txt ou casse la génération du sitemap peut prendre des semaines a recuperer.

N'incluez jamais dans votre sitemap des URLs bloquees par robots.txt
N'incluez que les versions canoniques des URLs dans votre sitemap
Utilisez robots.txt pour bloquer, les sitemaps pour prioriser et les liens internes pour renforcer
Surveillez les deux fichiers en continu ; les mises a jour de plateforme peuvent modifier silencieusement robots.txt
Planifiez une validation hebdomadaire du sitemap pour detecter les URLs nouvellement cassees
Tip

Après chaque mise a jour de plateforme ou changement de theme, vérifiez immediatement votre robots.txt et regenerez votre sitemap. Croisez les deux fichiers pour vous assurer qu'aucune URL du sitemap n'est bloquee et qu'aucune page critique ne manque dans le sitemap.

Travaillez avec des experts SEO qui comprennent l’e-commerce

La première agence SEO fondée par des e-commerçants

Robots.txt et sitemaps XML - EcomSEO Académie | EcomSEO