Fondamentaux de la recherche

10 min de lecture

Comment Google trouve les boutiques en ligne

Avant que Google puisse classer vos produits, il doit d'abord les découvrir. Comprendre comment Googlebot navigue sur les sites e-commerce révèle pourquoi certaines boutiques obtiennent des milliers de pages indexées tandis que d'autres peinent à faire remarquer même leurs pages de catégorie principales.

Comment Googlebot explore les sites e-commerce

Googlebot est le logiciel que Google utilise pour récupérer les pages web. Il fonctionne en suivant les liens d'une page à l'autre, un peu comme un acheteur qui clique à travers votre boutique. Quand il arrive sur une page, il lit le HTML, suit les liens qu'il y trouve et ajoute les nouvelles URLs découvertes à sa file de crawl.

Pour les sites e-commerce, ce processus de crawl rencontre rapidement des complications. Une page d'accueil peut lier vers 15 pages de catégories, chacune reliant vers 20 sous-catégories, chacune listant 40 produits. Cela fait déjà 12 000 pages de produits découvertes à partir d'un seul chemin de crawl. Mais Googlebot n'a pas de ressources illimitées. Google attribue à chaque site un budget de crawl basé sur l'autorité du site et la capacité du serveur.

Une boutique de taille moyenne avec une autorité de domaine modérée pourrait voir Googlebot demander 5 000 à 15 000 pages par jour. Si votre boutique a 80 000 URLs incluant les vues filtrées et la pagination, cela pourrait prendre des semaines à Googlebot pour visiter chaque page une fois. C'est pourquoi l'efficacité du crawl compte autant pour le e-commerce. Chaque URL que Googlebot gaspille sur une page filtrée sans valeur est une URL qu'il n'a pas consacrée à une page produit que vous voulez réellement classer.

Googlebot suit les liens de page en page pour découvrir les URLs
Chaque site reçoit un budget de crawl basé sur l'autorité et la vitesse du serveur
Les grandes boutiques peuvent nécessiter des semaines pour une couverture complète
Les pages sans valeur consomment du budget qui pourrait aller aux pages produits

La file d'attente de crawl et le système de priorité

Googlebot ne crawle pas toutes les pages de la même manière. Il maintient une file de priorité qui détermine quelles URLs sont explorées en premier et à quelle fréquence elles sont revisitées. Les pages qui changent fréquemment, reçoivent plus de liens internes ou ont une autorité plus élevée sont crawlées plus souvent.

Votre page d'accueil peut être crawlée plusieurs fois par jour. Les pages de catégories de premier niveau peuvent être crawlées quotidiennement ou tous les quelques jours. Les pages de produits individuelles plus profondes dans la structure du site ne sont peut-être crawlées que toutes les quelques semaines. Pour un produit saisonnier qui vient d'être lancé, ce délai peut signifier manquer des semaines de trafic de recherche potentiel.

Nous pouvons influencer la priorité de crawl grâce aux liens internes. Une page produit liée depuis votre page d'accueil, une page de catégorie et trois articles de blog sera crawlée plus tôt et plus fréquemment qu'une page accessible uniquement via deux niveaux de navigation par catégorie. C'est pourquoi le maillage interne stratégique est l'une des tactiques SEO les plus impactantes pour les boutiques.

Tip

Vérifiez vos statistiques de crawl dans Google Search Console sous Paramètres > Statistiques d'exploration. Si le temps de réponse moyen dépasse 500 ms, la vitesse de votre serveur peut limiter le nombre de pages que Googlebot explore par jour.

Rendu JavaScript et plateformes e-commerce

De nombreuses plateformes e-commerce modernes utilisent JavaScript pour charger les informations produit, les prix et les avis. Les thèmes Shopify, les boutiques headless basées sur React et certaines configurations WooCommerce reposent fortement sur le rendu côté client. Cela crée un défi car Googlebot explore en deux phases.

Dans la première phase, Googlebot récupère le HTML brut. Si le titre de votre produit, sa description et son prix sont chargés via JavaScript après le rendu de la page, cette première récupération HTML renvoie une coquille vide. Google met ensuite la page en file d'attente pour une deuxième phase de rendu où il exécute le JavaScript. Cette file de rendu peut ajouter des jours, voire des semaines de délai avant que Google ne voie votre contenu réel.

Les boutiques Shopify utilisant le système de templates Liquid standard évitent généralement ce problème car les données produit sont rendues côté serveur. Mais les boutiques utilisant des configurations headless avec des frameworks comme Next.js ou Nuxt doivent implémenter le rendu côté serveur (SSR) ou la génération de sites statiques (SSG) pour garantir que Googlebot voie le contenu produit dès la première récupération.

Nous avons audité des boutiques où 30 % des pages produits n'étaient pas indexées parce que le balisage schema produit, les avis et même le titre du produit étaient tous chargés via JavaScript que Googlebot n'avait pas réussi à rendre. Le passage au rendu côté serveur a corrigé l'indexation en trois semaines.

Googlebot explore en deux phases : récupération HTML, puis rendu JavaScript
La file de rendu peut retarder la découverte du contenu de jours ou semaines
Les templates Liquid Shopify standard font le rendu côté serveur par défaut
Les configurations headless nécessitent SSR ou SSG pour une indexation fiable
Testez vos pages avec l'outil d'inspection d'URL pour voir ce que Google rend

Sitemaps XML pour la découverte des produits

Un sitemap XML est un fichier qui liste les URLs dont vous voulez que Google ait connaissance. Pour les sites e-commerce, les sitemaps servent de canal direct pour indiquer à Google quelles pages existent, quand elles ont été mises à jour pour la dernière fois et à quelle fréquence elles changent.

Une stratégie de sitemap e-commerce bien structurée utilise plusieurs fichiers de sitemap. Un sitemap pour les pages produits, un autre pour les pages catégories, un pour le contenu du blog et un pour les pages statiques comme votre page à propos et votre politique de livraison. Cette séparation vous permet de surveiller l'indexation par type de page dans la Search Console.

Nous recommandons généralement de n'inclure que les pages canoniques et indexables dans vos sitemaps. Les URLs filtrées, les pages de produits en rupture de stock que vous avez mises en noindex et les pages de listing paginées au-delà de la page un devraient être exclues. Un sitemap qui liste 200 000 URLs alors que seulement 30 000 sont indexables envoie un signal confus à Google sur la qualité de votre site.

La plupart des plateformes e-commerce génèrent des sitemaps automatiquement. Shopify crée un sitemap.xml qui inclut les produits, collections, pages et articles de blog. WooCommerce avec Yoast SEO ou RankMath génère des sitemaps avec plus d'options de configuration. Quelle que soit la plateforme, passez en revue votre sitemap mensuellement pour vous assurer qu'il reflète la structure actuelle de votre site.

Tip

Soumettez vos sitemaps dans Google Search Console et vérifiez le rapport de couverture après deux semaines. Si le ratio de pages indexées par rapport aux pages soumises est inférieur à 70 %, recherchez pourquoi Google choisit de ne pas indexer une partie significative de vos URLs soumises.

Les liens internes comme chemins de découverte

Si les sitemaps indiquent à Google que des pages existent, les liens internes lui montrent comment ces pages sont reliées entre elles et lesquelles comptent le plus. Une page produit avec 50 liens internes pointant vers elle a plus de priorité de crawl qu'une page qui n'en a que 2.

Les pages de catégories sont l'épine dorsale du maillage interne en e-commerce. Chaque page de catégorie lie vers des dizaines de produits, transmettant la priorité de crawl et les signaux de classement à ces pages produits. Une navigation par fil d'Ariane bien structurée ajoute une couche supplémentaire de liens internes, connectant les produits à leurs catégories parentes et à la page d'accueil.

Les sections de vente croisée et de produits associés créent des liens internes latéraux entre produits. Quand une page produit de chaussures de course lie vers des lacets, semelles et chaussettes associés, ces connexions aident Googlebot à découvrir davantage de votre catalogue tout en distribuant l'équité de liens à travers votre boutique.

Les pages orphelines sont l'ennemi de la découverte. Une page orpheline n'a aucun lien interne pointant vers elle. Elle peut exister dans votre sitemap, mais si Googlebot ne peut pas l'atteindre en suivant des liens depuis une autre page, cela signale une faible importance. Nous trouvons fréquemment des pages produits orphelines dans les boutiques qui ont restructuré leurs catégories sans mettre à jour les liens internes.

Les pages de catégories distribuent la priorité de crawl aux pages produits en dessous
Le fil d'Ariane crée des chemins de liens internes ascendants vers les catégories et l'accueil
Les sections de produits associés construisent des liens latéraux entre produits
Les pages orphelines sans liens internes sont dépriorisées par Google

Problèmes de découverte courants en e-commerce

Le problème de découverte le plus courant que nous rencontrons est celui des boutiques qui bloquent Googlebot de ressources essentielles dans leur fichier robots.txt. Certaines installations WooCommerce bloquent le répertoire /wp-admin/, ce qui est correct, mais bloquent aussi accidentellement les fichiers CSS et JavaScript dont Googlebot a besoin pour rendre les pages correctement.

Un autre problème fréquent est les pièges de crawl infinis causés par la navigation à facettes. Une boutique de vêtements qui permet aux utilisateurs de combiner les filtres de taille, couleur, matière, marque et prix peut générer des millions d'URLs uniques. Sans contrôles appropriés, Googlebot peut dépenser tout son budget de crawl à explorer ces combinaisons de filtres sans jamais atteindre les pages produits profondes.

Les URLs basées sur les sessions causent aussi des problèmes. Certaines plateformes e-commerce ajoutent des identifiants de session ou des paramètres de tracking aux URLs, créant ce qui ressemble à des milliers de pages dupliquées. Chaque visite de Googlebot génère une nouvelle variante d'URL, gaspillant le budget de crawl sur des pages au contenu identique.

La pagination peut aussi ralentir la découverte. Si votre page de catégorie liste 500 produits sur 25 pages paginées, Googlebot doit crawler la page 1, la page 2, la page 3, et ainsi de suite pour découvrir tous les produits. Les produits listés en page 20 peuvent prendre significativement plus de temps à être découverts et indexés que ceux en page 1.

Vérifiez le robots.txt pour s'assurer que les fichiers CSS et JS ne sont pas bloqués
Mettez en place des contrôles sur la navigation à facettes pour prévenir les pièges de crawl
Utilisez des balises canonical pour gérer les IDs de session et les paramètres de tracking
Envisagez de charger plus de produits par page pour réduire la profondeur de pagination

Travaillez avec des experts SEO qui comprennent l’e-commerce

La première agence SEO fondée par des e-commerçants

Comment Google trouve les boutiques en ligne - EcomSEO Academy | EcomSEO