Fondamentaux de la recherche
10 min de lectureCrawl et indexation des pages produits
Le fait que Google explore vos pages ne garantit pas qu'elles apparaîtront dans les résultats de recherche. L'exploration et l'indexation sont deux processus distincts, et comprendre l'écart entre les deux est essentiel pour toute boutique gérant des milliers d'URLs de produits.
In this guide
- 1. Crawl vs. indexation : la différence qui compte
- 2. Pourquoi Google n'indexe pas certaines pages produits
- 3. Balises canonical et contenu dupliqué en e-commerce
- 4. Gérer le gonflement d'index causé par les filtres et facettes
- 5. Vérifier le statut d'indexation dans Google Search Console
- 6. Étapes pratiques pour améliorer l'indexation des pages produits
Crawl vs. indexation : la différence qui compte
Le crawl signifie que Googlebot a visité votre page et téléchargé son contenu. L'indexation signifie que Google a analysé ce contenu, l'a jugé digne d'inclusion et l'a stocké dans son index de recherche. Une page peut être crawlée mais pas indexée, ce qui arrive plus souvent que la plupart des propriétaires de boutiques ne le réalisent.
Considérez le crawl comme Google parcourant chaque allée de votre magasin physique. L'indexation, c'est Google décidant quels produits méritent d'être mis en rayon pour que les acheteurs les trouvent. Si une page produit a un contenu mince, duplique une autre page ou présente des problèmes techniques, Google peut l'explorer puis décider qu'elle ne mérite pas sa place dans l'index.
Pour une boutique en ligne typique avec 20 000 pages produits, nous constatons couramment que 30 % à 50 % de ces pages ne sont pas indexées. Cela signifie que des milliers de produits sont invisibles dans les résultats de recherche. L'écart entre les pages explorées et les pages indexées est l'endroit où se cachent la plupart des opportunités SEO e-commerce.
Pourquoi Google n'indexe pas certaines pages produits
La raison la plus courante pour laquelle Google refuse d'indexer une page produit est le contenu dupliqué ou quasi dupliqué. Quand 500 produits du même fabricant partagent des descriptions identiques ne différant que par le nom du produit, Google voit peu de raisons d'indexer les 500 versions. Il en choisit quelques-unes et ignore le reste.
Le contenu mince est le deuxième plus grand responsable. Une page produit avec une description de 20 mots, un prix et un bouton d'achat fournit presque aucune information pour que Google l'évalue. Comparez avec un concurrent dont la page produit inclut une description unique de 300 mots, des avis clients, des tableaux de spécifications et des instructions d'utilisation. Google indexera la page la plus riche et ignorera la mince.
Les signaux techniques peuvent aussi empêcher l'indexation. Les pages qui chargent lentement, retournent des erreurs soft 404, ont des balises canonical contradictoires ou sont bloquées par des directives noindex ne feront jamais partie de l'index, quelle que soit la qualité de leur contenu.
Les signaux de qualité de page comptent aussi. Si votre site a un ratio élevé de pages de faible qualité, Google peut réduire la fréquence de crawl pour l'ensemble de votre domaine, rendant plus difficile l'indexation rapide même de vos bonnes pages.
Lancez un crawl avec Screaming Frog ou Sitebulb et filtrez les pages avec moins de 100 mots de corps de texte. Ces pages minces sont vos meilleurs candidats pour l'amélioration ou la consolidation de contenu.
Balises canonical et contenu dupliqué en e-commerce
Les balises canonical indiquent à Google quelle version d'une page est l'originale quand plusieurs URLs affichent un contenu similaire ou identique. Pour les sites e-commerce, la canonicalisation n'est pas optionnelle. Sans elle, Google doit deviner quelle URL indexer, et il se trompe souvent.
Les variantes de produits créent le scénario canonical le plus courant. Un t-shirt bleu à /products/cotton-tee?color=blue et une version rouge à /products/cotton-tee?color=red peuvent partager 90 % de leur contenu. S'il s'agit vraiment du même produit avec un sélecteur de couleur, les deux URLs devraient canonicaliser vers la page produit principale à /products/cotton-tee. Si les variantes de couleur ont une demande de recherche significativement différente (les gens recherchent spécifiquement "t-shirt coton bleu"), elles peuvent justifier des pages indexées séparées.
La navigation à facettes génère encore plus de complexité canonical. Une URL comme /shoes?size=10&color=black&brand=nike&sort=price-low est l'une de potentiellement millions de combinaisons de filtres. Ces vues filtrées devraient soit canonicaliser vers la page de catégorie principale, soit être bloquées de l'indexation entièrement. Le choix dépend de si cette combinaison de filtres spécifique a une véritable demande de recherche.
Nous voyons les boutiques commettre deux erreurs canonical courantes. Premièrement, les canonicals circulaires où la page A canonicalise vers la page B et la page B canonicalise vers la page A. Deuxièmement, canonicaliser toutes les variantes de produits vers un seul parent quand chaque variante a un volume de recherche indépendant, cachant essentiellement des pages classables à Google.
Gérer le gonflement d'index causé par les filtres et facettes
Le gonflement d'index se produit quand Google indexe des milliers d'URLs de faible valeur qui diluent les signaux de qualité globaux de votre site. Pour le e-commerce, la source principale du gonflement d'index est la navigation à facettes qui génère des URLs filtrables.
Prenons un magasin de meubles avec 200 produits dans la catégorie "canapés". Si les acheteurs peuvent filtrer par couleur (10 options), matériau (8 options), gamme de prix (5 tranches) et nombre de places (4 options), les combinaisons d'URLs possibles atteignent 1 600 avant de tenir compte des filtres à sélection multiple. La plupart de ces vues filtrées montrent le même petit ensemble de produits dans différents ordres.
L'approche standard pour contrôler le gonflement d'index implique trois niveaux. D'abord, utilisez le robots.txt pour bloquer Googlebot des schémas de filtres les plus évidemment sans valeur. Ensuite, appliquez des balises noindex aux pages filtrées que Googlebot peut toujours atteindre par d'autres chemins. Enfin, utilisez des balises canonical pour pointer les vues filtrées vers la page de catégorie principale.
Une approche plus chirurgicale consiste à autoriser sélectivement l'indexation des combinaisons de filtres qui correspondent à de vraies requêtes de recherche. Si les gens recherchent "canapés en cuir" en nombre significatif, l'URL /canapes?materiau=cuir pourrait valoir la peine d'être indexée. Mais /canapes?materiau=cuir&couleur=marron&places=3 ne l'est presque certainement pas.
Les boutiques Shopify gèrent cela différemment de WooCommerce ou Magento car Shopify ne génère pas d'URLs de filtre par défaut. Les apps de filtrage tierces comme Smart Product Filter créent ces URLs, et chaque app gère les balises canonical et les contrôles d'indexation différemment. Vérifiez toujours comment votre app de filtrage gère ces détails techniques.
Vérifier le statut d'indexation dans Google Search Console
Google Search Console fournit deux outils principaux pour surveiller l'indexation. Le rapport Pages (anciennement rapport de couverture) montre combien de vos pages sont indexées et pourquoi le reste a été exclu. L'outil d'inspection d'URL vous permet de vérifier le statut de pages individuelles.
Dans le rapport Pages, concentrez-vous sur l'onglet "Non indexé". Google regroupe les pages exclues par raison : "Explorée, actuellement non indexée", "Découverte, actuellement non indexée", "Doublon sans canonical sélectionnée par l'utilisateur", "Exclue par une balise noindex", et plusieurs autres. Chaque raison nécessite une correction différente.
"Explorée, actuellement non indexée" signifie que Google a visité la page mais a choisi de ne pas l'ajouter à l'index. Cela signale généralement un problème de qualité de contenu. Améliorer le contenu de la page, ajouter des descriptions uniques ou l'enrichir avec des avis et des données structurées peut aider.
"Découverte, actuellement non indexée" signifie que Google sait que l'URL existe mais n'a pas encore pris la peine de l'explorer. Cela indique une faible priorité de crawl, souvent causée par un maillage interne faible ou une page trop profonde dans la hiérarchie du site.
L'outil d'inspection d'URL vous montre exactement ce que Google voit quand il explore une page spécifique. Utilisez-le pour vérifier que vos balises canonical sont respectées, que votre page s'affiche correctement et qu'aucune balise noindex accidentelle ne bloque l'indexation. Nous recommandons d'inspecter 10 à 20 pages produits représentatives chaque mois pour détecter les problèmes tôt.
Exportez les données "Non indexé" de GSC en tableur et catégorisez les pages par type (produit, catégorie, filtre, blog). Cela révèle si vos problèmes d'indexation sont concentrés sur un type de page spécifique, rendant la correction plus ciblée.
Étapes pratiques pour améliorer l'indexation des pages produits
Commencez par auditer quelles pages produits sont actuellement indexées. Utilisez l'opérateur site: dans Google (site:votreboutique.com/products/) pour obtenir un compte approximatif, puis croisez avec les données GSC pour plus de précision. Si moins de 70 % de vos pages produits sont indexées, il y a du travail.
Rédigez des descriptions de produits uniques pour vos produits les plus vendus et à plus forte marge en priorité. Ces pages ont le plus grand potentiel de revenus via la recherche organique. Même ajouter 150 à 200 mots de contenu unique et descriptif par page produit peut faire la différence entre être indexé et ignoré.
Consolidez les pages qui ne servent aucun objectif indépendant. Si vous avez 30 variantes de couleur du même produit et qu'aucun de ces termes spécifiques à la couleur n'a de volume de recherche, consolidez-les sous une seule page produit avec un sélecteur de couleur. Cette unique page forte surpassera 30 pages minces à chaque fois.
Renforcez le maillage interne vers les pages produits que vous voulez voir indexées. Liez depuis des articles de blog connexes, depuis la section produits mis en avant de la page d'accueil, et depuis d'autres pages produits via des widgets "les clients ont aussi acheté" ou "produits associés". Chaque lien interne supplémentaire signale à Google que la page compte.
Enfin, gardez votre sitemap propre. Supprimez les URLs qui retournent des erreurs 404, qui sont en noindex ou que vous avez décidé de consolider. Un sitemap épuré ne contenant que les pages que vous voulez vraiment voir indexées donne à Google une image plus claire de la structure de votre site.
Outils et ressources gratuits
Travaillez avec des experts SEO qui comprennent l’e-commerce
La première agence SEO fondée par des e-commerçants