SEO avance

12 min de lecture

Analyse des fichiers de logs

Les fichiers de logs serveur sont la seule source de verite sur la facon dont les robots des moteurs de recherche interagissent reellement avec votre site e-commerce. Alors que des outils comme Google Search Console fournissent des resumes agreges, les donnees brutes des logs revelent exactement quelles URLs Googlebot demande, a quelle frequence il revient, quelles pages il ignore entierement et ou votre budget de crawl est gaspille. Pour les grands catalogues e-commerce, l'analyse des fichiers de logs fait la difference entre deviner les problemes de crawl et les diagnostiquer avec precision.

In this guide

1. Comprendre les donnees de logs serveur pour le SEO
2. Analyse du budget de crawl pour les catalogues produits
3. Identifier le gaspillage de crawl et les pages orphelines
4. Analyse des codes de statut et detection d'erreurs
5. Analyse des modeles et du timing de crawl
6. Mettre en place un pipeline d'analyse de logs

Comprendre les donnees de logs serveur pour le SEO

Chaque fois qu'un robot de moteur de recherche demande une page a votre serveur, le serveur web enregistre une entree de log contenant l'adresse IP, la chaine user agent, l'URL demandee, le code de reponse HTTP, la taille de la reponse, l'horodatage et le referrer. Pour le SEO, les champs critiques sont le user agent, l'URL demandee, le code de statut retourne et l'horodatage.

Googlebot s'identifie par plusieurs chaines user agent qui distinguent entre le rendu desktop, le rendu mobile, le crawl d'images, AdsBot et d'autres crawlers specialises. Le filtrage des logs pour les seules requetes Googlebot necessite la correspondance avec tous les modeles de user agent Googlebot connus. Verifiez l'identite de Googlebot en croisant les adresses IP avec les plages ASN publiees par Google.

Les fichiers de logs sont generalement stockes en Common Log Format (CLF) ou Combined Log Format. Si votre plateforme e-commerce fonctionne derriere un CDN, vous devrez peut-etre configurer le CDN pour transmettre les vraies adresses IP des clients.

Pour les boutiques e-commerce avec un volume de trafic important, les fichiers de logs bruts peuvent atteindre des gigaoctets par jour. L'analyse efficace necessite des outils specialises ou un pipeline de donnees qui ingere les logs dans une base de donnees interrogeable comme BigQuery ou Elasticsearch.

Filtrer les logs par user agents Googlebot verifies et plages IP pour exclure les faux robots

Capturer le user agent, l'URL, le code de statut, l'horodatage et la taille de reponse comme champs minimaux

Configurer la transmission des logs CDN pour s'assurer que les requetes des robots sont capturees au serveur d'origine

Utiliser des outils d'analyse de logs specialises ou des pipelines de donnees pour les boutiques a haut volume

Tip

Configurez un flux de logs separe dedie au trafic des robots qui filtre les visiteurs humains au niveau du serveur. Cela reduit drastiquement le volume de donnees a traiter et rend l'analyse du comportement de Googlebot plus rapide et ciblee.

Analyse du budget de crawl pour les catalogues produits

Le budget de crawl est le nombre de pages que Google va crawler sur votre site dans une periode donnee. Pour les petits sites, le budget de crawl est rarement un souci. Mais les boutiques e-commerce avec des dizaines de milliers de pages produit, des hierarchies de categories multiples et une navigation a facettes peuvent facilement epuiser leur budget de crawl sur des URLs a faible valeur.

L'analyse des fichiers de logs revele votre allocation reelle de budget de crawl. Calculez le nombre total de requetes Googlebot par jour, puis segmentez ces requetes par modele d'URL. Les modeles courants a analyser incluent les pages de detail produit, les pages de categories, les pages de resultats de recherche, les URLs de navigation a facettes, les pages paginees et les assets statiques.

Le ratio d'allocation du crawl devrait correspondre approximativement a vos priorites d'indexation. Si 60% des requetes de Googlebot ciblent des URLs de navigation a facettes generant du contenu duplique et mince, vous avez un serieux probleme de budget de crawl.

Calculez la frequence de crawl pour vos pages les plus importantes. Si les pages produit phares ne sont crawlees qu'une fois tous les 30 jours tandis que les produits en rupture de stock recoivent des visites quotidiennes, votre structure de liens internes envoie les mauvais signaux.

Suivez les tendances du budget de crawl dans le temps. Un taux de crawl en baisse signale souvent une degradation de la sante du site.

Segmenter les requetes Googlebot par modele d'URL pour identifier ou le budget de crawl est depense

Comparer les ratios d'allocation du crawl avec la priorite d'indexation pour chaque type d'URL

Bloquer les modeles d'URL a faible valeur qui consomment du budget de crawl sans benefice d'indexation

Suivre la frequence de crawl des pages produit prioritaires pour assurer une couverture adequate

Identifier le gaspillage de crawl et les pages orphelines

Le gaspillage de crawl se produit quand Googlebot passe du temps et des ressources a demander des URLs sans valeur SEO. Dans les boutiques e-commerce, les sources courantes incluent les parametres d'ID de session, les pages de resultats de recherche interne, les combinaisons de parametres de tri et de filtrage, et les pages de panier et de paiement.

L'analyse des fichiers de logs quantifie exactement combien de budget de crawl chaque categorie de gaspillage consomme. Croisez vos donnees de logs avec votre index souhaite en comparant les URLs demandees par Googlebot avec votre sitemap XML et le rapport de couverture d'index de la Search Console.

Les pages orphelines sont le probleme inverse : des pages qui existent et devraient etre indexees mais ne recoivent jamais une seule requete Googlebot. Pour trouver les pages orphelines, comparez la liste complete des URLs produit de votre base de donnees avec les URLs apparaissant dans vos fichiers de logs sur une periode de 90 jours.

Les pages orphelines en e-commerce proviennent typiquement d'un maillage interne casse, d'une pagination profonde que Googlebot n'atteint pas, ou de produits recemment ajoutes pas encore lies depuis les pages de categories.

Creez un tableau de bord systematique de sante du crawl qui suit le ratio de crawls productifs versus crawls gaspilles. Un site e-commerce sain devrait viser au moins 70-80% de ratio de crawl productif.

Quantifier le gaspillage de crawl en categorisant les requetes Googlebot vers des modeles d'URL non indexables

Trouver les pages orphelines en comparant la base de donnees produit avec les donnees de crawl des logs sur 90 jours

Corriger les causes des pages orphelines : liens casses, pagination profonde, entrees sitemap manquantes

Suivre le ratio de crawl productif visant 70-80% des requetes Googlebot atteignant des pages indexables

Tip

Exportez votre liste de pages orphelines et croisez-la avec Google Analytics ou les donnees de vente de votre plateforme e-commerce. Les pages orphelines avec un historique de conversion prouve representent des opportunites immediates de recuperation de revenus une fois qu'elles retrouvent la visibilite par un maillage interne correct.

Analyse des codes de statut et detection d'erreurs

Les codes de statut HTTP dans les fichiers de logs revelent la sante de votre structure d'URL du point de vue de Google. Chaque requete Googlebot qui retourne un code de statut non-200 represente une opportunite d'indexation manquee ou du budget de crawl gaspille.

Les chaines de redirections 301 et 302 sont courantes dans les boutiques e-commerce qui changent frequemment les structures d'URL ou migrent de plateforme. L'analyse des logs revele combien de requetes Googlebot rencontrent des chaines de redirections et la profondeur de ces chaines. Identifiez les URLs ou Googlebot rencontre plus d'un saut de redirection et aplatissez ces chaines.

Les erreurs 404 de Googlebot indiquent des URLs qui etaient autrefois valides mais retournent maintenant des reponses non trouvees. En e-commerce, cela arrive typiquement quand des produits sont arretes ou des categories reorganisees sans redirections.

Les erreurs serveur 5xx sont les codes de statut les plus dommageables pour le SEO. Elles declenchent une reduction du taux de crawl. L'analyse des logs peut reveler si les erreurs 5xx sont correlees avec des modeles d'URL specifiques, des periodes horaires ou des pics de trafic.

Les pages soft 404, ou le serveur retourne un code 200 mais le contenu indique que le produit est indisponible, sont plus difficiles a detecter dans les logs seuls. Combinez l'analyse des logs avec des donnees de crawl pour les identifier.

Aplatir les chaines de redirections ou Googlebot rencontre plus d'un saut vers l'URL finale

Investiguer les pics de 404 correlant avec les changements de sitemap ou les restructurations de categories

Surveiller les modeles d'erreurs 5xx par type d'URL et heure du jour pour identifier les problemes de capacite serveur

Combiner les donnees de logs avec l'analyse de crawl pour detecter les pages soft 404 retournant des codes 200

Analyse des modeles et du timing de crawl

Analyser quand Googlebot crawle votre site revele des modeles qui informent la planification de la capacite serveur, les strategies de fraicheur du contenu et l'optimisation du sitemap. Tracez les requetes Googlebot dans le temps pour identifier les pics et creux d'activite de crawl sur les heures, les jours et les patterns saisonniers.

La plupart des sites e-commerce voient l'activite Googlebot repartie sur la journee mais souvent avec une intensite plus elevee pendant les heures creuses quand les temps de reponse du serveur sont les plus rapides.

Apres avoir soumis un sitemap XML mis a jour via la Search Console, surveillez les fichiers de logs pour mesurer la rapidite avec laquelle Googlebot commence a demander les nouvelles URLs. Le delai entre la soumission du sitemap et le crawl reel donne un apercu de la priorisation de Google pour votre domaine.

Suivez la profondeur de crawl que Googlebot atteint dans la hierarchie de votre site. Analysez la profondeur du chemin URL des pages crawlees pour determiner si Googlebot atteint vos pages produit les plus profondes ou s'arrete aux categories de niveau superieur.

Comparez les modeles de crawl avant et apres les changements majeurs du site. Les changements de volume de crawl apres un changement technique confirment si la modification a eu l'effet souhaite.

Tracer le volume de requetes Googlebot dans le temps pour identifier les pics et creux d'activite de crawl

Mesurer le delai entre les soumissions de sitemap et les requetes de crawl Googlebot reelles

Analyser la profondeur du chemin URL des pages crawlees pour verifier que Googlebot atteint les pages produit profondes

Comparer les modeles de crawl avant et apres les changements techniques majeurs pour valider l'impact

Mettre en place un pipeline d'analyse de logs

Construire une pratique durable d'analyse de logs necessite un pipeline qui collecte, traite et visualise automatiquement les donnees de logs. Pour la plupart des equipes e-commerce, l'objectif est un systeme fournissant des rapports quotidiens ou hebdomadaires de sante du crawl avec alertes pour les anomalies.

Commencez par determiner ou vos logs sont generes et comment y acceder. Si vous utilisez un hebergement gere ou une plateforme comme Shopify, l'acces aux logs peut etre limite. Pour les boutiques auto-hebergees, configurez votre serveur web pour diffuser les logs vers un emplacement de stockage centralise.

Pour l'analyse, choisissez entre des outils commerciaux et des pipelines personnalises. Les outils commerciaux comme Botify, JetOctopus ou Screaming Frog Log Analyzer offrent des tableaux de bord pre-construits axes sur le SEO. Les pipelines personnalises avec BigQuery ou Elasticsearch offrent plus de flexibilite.

Etablissez des metriques de reference : volume quotidien de requetes Googlebot, ratio de crawl productif, distribution de frequence de crawl par type de page, taux d'erreur par code de statut et temps de reponse moyen pour les requetes de robots. Configurez des alertes automatisees pour les ecarts par rapport a ces references.

Integrez les donnees d'analyse de logs avec vos autres sources de donnees SEO. La combinaison de la frequence de crawl des logs avec les donnees d'impressions de la Search Console et les donnees de trafic Analytics cree une image complete.

Configurer la collecte automatisee des logs depuis votre serveur web ou CDN vers un stockage centralise

Choisir entre des outils de logs commerciaux pour des tableaux de bord pre-construits ou des pipelines personnalises pour la flexibilite

Etablir des metriques de reference pour le volume de crawl, le ratio productif, le taux d'erreur et le temps de reponse

Integrer les donnees de logs avec Search Console, Analytics et les donnees d'outils de crawl pour une visibilite SEO complete

Tip

Planifiez des revues mensuelles d'analyse de logs comparant les metriques de crawl actuelles avec vos references et les mois precedents. Creez un modele de rapport standardise couvrant l'allocation du budget de crawl, les tendances d'erreurs, le nombre de pages orphelines et le ratio d'efficacite du crawl. Un reporting coherent transforme l'analyse de logs d'un audit ponctuel en un avantage concurrentiel continu.

Outils et ressources gratuits

Screaming Frog Log File Analyser Google Crawl Stats Report GoAccess (Free Log Analyzer)

Advanced SEO

JavaScript SEO for Ecommerce

Advanced SEO

SEO A/B Testing

Travaillez avec des experts SEO qui comprennent l’e-commerce

La première agence SEO fondée par des e-commerçants

Nous contacter