SEO avance

12 min de lecture

Analyse des fichiers de logs

Les fichiers de logs serveur sont la seule source de vérité sur la façon dont les robots des moteurs de recherche interagissent reellement avec votre site e-commerce. Alors que des outils comme [Google Search Console](/academy/google-search-console-for-stores) fournissent des resumes agreges, les données brutes des logs revelent exactement quelles URLs Googlebot demande, a quelle fréquence il revient, quelles pages il ignore entierement et ou votre budget de crawl est gaspille. Pour les grands catalogues e-commerce, l'analyse des fichiers de logs fait la difference entre deviner les problemes de crawl et les diagnostiquer avec precision. Alors que des outils comme Google Search Console fournissent des résumés agrégés, les données brutes des logs révèlent exactement quelles URLs Googlebot demande, à quelle fréquence il revient, quelles pages il ignore complètement et où votre [budget de crawl](/academy/crawl-budget-management) est gaspillé.

ParFabian van Til— SEO Lead, EcomSEO
·
Dernière revue:

Comprendre les données de logs serveur pour le SEO

Chaque fois qu'un robot de moteur de recherche demande une page a votre serveur, le serveur web enregistre une entree de log contenant l'adresse IP, la chaine user agent, l'URL demandee, le code de reponse HTTP, la taille de la reponse, l'horodatage et le referrer. Pour le SEO, les champs critiques sont le user agent, l'URL demandee, le code de statut retourne et l'horodatage.

Googlebot s'identifie par plusieurs chaines user agent qui distinguent entre le rendu desktop, le rendu mobile, le crawl d'images, AdsBot et d'autres crawlers specialises. Le filtrage des logs pour les seules requetes Googlebot nécessite la correspondance avec tous les modèles de user agent Googlebot connus. Vérifiez l'identite de Googlebot en croisant les adresses IP avec les plages ASN publiees par Google.

Les fichiers de logs sont generalement stockes en Common Log Format (CLF) ou Combined Log Format. Si votre plateforme e-commerce fonctionne derriere un CDN, vous devrez peut-etre configurer le CDN pour transmettre les vraies adresses IP des clients.

Pour les boutiques e-commerce avec un volume de trafic important, les fichiers de logs bruts peuvent atteindre des gigaoctets par jour. L'analyse efficace nécessite des outils specialises ou un pipeline de données qui ingere les logs dans une base de données interrogeable comme BigQuery ou Elasticsearch.

Filtrer les logs par user agents Googlebot verifies et plages IP pour exclure les faux robots
Capturer le user agent, l'URL, le code de statut, l'horodatage et la taille de reponse comme champs minimaux
Configurer la transmission des logs CDN pour s'assurer que les requetes des robots sont capturees au serveur d'origine
Utiliser des outils d'analyse de logs specialises ou des pipelines de données pour les boutiques a haut volume
Tip

Configurez un flux de logs separe dedie au trafic des robots qui filtre les visiteurs humains au niveau du serveur. Cela reduit drastiquement le volume de données a traiter et rend l'analyse du comportement de Googlebot plus rapide et ciblee.

Analyse du budget de crawl pour les catalogues produits

Le budget de crawl est le nombre de pages que Google va crawler sur votre site dans une periode donnée. Pour les petits sites, le budget de crawl est rarement un souci. Mais les boutiques e-commerce avec des dizaines de milliers de pages produit, des hierarchies de catégories multiples et une navigation a facettes peuvent facilement epuiser leur budget de crawl sur des URLs a faible valeur.

L'analyse des fichiers de logs revele votre allocation reelle de budget de crawl. Calculez le nombre total de requetes Googlebot par jour, puis segmentez ces requetes par modèle d'URL. Les modèles courants a analyser incluent les pages de detail produit, les pages de catégories, les pages de resultats de recherche, les URLs de navigation a facettes, les pages paginees et les assets statiques.

Le ratio d'allocation du crawl devrait correspondre approximativement a vos priorites d'indexation. Si 60% des requetes de Googlebot ciblent des URLs de navigation a facettes generant du contenu duplique et mince, vous avez un serieux probleme de budget de crawl.

Calculez la fréquence de crawl pour vos pages les plus importantes. Si les pages produit phares ne sont crawlees qu'une fois tous les 30 jours tandis que les produits en rupture de stock recoivent des visites quotidiennes, votre structure de liens internes envoie les mauvais signaux.

Suivez les tendances du budget de crawl dans le temps. Un taux de crawl en baisse signale souvent une degradation de la sante du site.

Crawl-Verschwendung

Segmentez les requêtes Googlebot par modèle d'URL pour identifier où le budget est dépensé. Bloquez les combinaisons de filtres de faible valeur dans robots.txt et utilisez des balises canoniques pour rediriger l'attention de l'analyse vers le produit indexable.

Graphique à barres montrant l'allocation du budget d'exploration avec 60 % gaspillés sur des URL de navigation à facettes tandis que seulement 15 % atteignent les pages de produits
Si 60 % des requêtes Googlebot ciblent la navigation à facettes alors que seulement 15 % atteignent les pages de produits, vous rencontrez un grave problème de budget d'exploration qui nécessite une correction immédiate.
Segmenter les requetes Googlebot par modèle d'URL pour identifier ou le budget de crawl est depense
Comparer les ratios d'allocation du crawl avec la priorite d'indexation pour chaque type d'URL
Bloquer les modèles d'URL a faible valeur qui consomment du budget de crawl sans benefice d'indexation
Suivre la fréquence de crawl des pages produit prioritaires pour assurer une couverture adequate

Identifier le gaspillage de crawl et les pages orphelines

Le gaspillage de crawl se produit quand Googlebot passe du temps et des ressources a demander des URLs sans valeur SEO. Dans les boutiques e-commerce, les sources courantes incluent les parametres d'ID de session, les pages de resultats de recherche interne, les combinaisons de parametres de tri et de filtrage, et les pages de panier et de paiement.

L'analyse des fichiers de logs quantifie exactement combien de budget de crawl chaque catégorie de gaspillage consomme. Croisez vos données de logs avec votre index souhaite en comparant les URLs demandees par Googlebot avec votre sitemap XML et le rapport de couverture d'index de la Search Console.

Les pages orphelines sont le probleme inverse : des pages qui existent et devraient etre indexees mais ne recoivent jamais une seule requete Googlebot. Pour trouver les pages orphelines, comparez la liste complete des URLs produit de votre base de données avec les URLs apparaissant dans vos fichiers de logs sur une periode de 90 jours.

Les pages orphelines en e-commerce proviennent typiquement d'un maillage interne casse, d'une pagination profonde que Googlebot n'atteint pas, ou de produits recemment ajoutes pas encore lies depuis les pages de catégories.

Creez un tableau de bord systematique de sante du crawl qui suit le ratio de crawls productifs versus crawls gaspilles. Un site e-commerce sain devrait viser au moins 70-80% de ratio de crawl productif.

Verwaiste Seiten

Les pages orphelines avec un historique de conversion éprouvé représentent des opportunités immédiates de récupération de revenus. Croisez les URL orphelines avec les données de vente pour prioriser les pages à reconnecter via un lien interne

Diagramme de comparaison montrant le gaspillage d'exploration des ID de session et des filtres par rapport aux pages orphelines dues à des liens rompus et à une pagination profonde
Comparez votre base de données de produits aux données d'exploration des journaux de 90 jours pour trouver les pages orphelines. Un site de commerce électronique sain doit viser un taux d'exploration productif de 70 à 80 %.
Quantifier le gaspillage de crawl en categorisant les requetes Googlebot vers des modèles d'URL non indexables
Trouver les pages orphelines en comparant la base de données produit avec les données de crawl des logs sur 90 jours
Corriger les causes des pages orphelines : liens casses, pagination profonde, entrees sitemap manquantes
Suivre le ratio de crawl productif visant 70-80% des requetes Googlebot atteignant des pages indexables
Tip

Exportez votre liste de pages orphelines et croisez-la avec Google Analytics ou les données de vente de votre plateforme e-commerce. Les pages orphelines avec un historique de conversion prouve representent des opportunites immediates de recuperation de revenus une fois qu'elles retrouvent la visibilite par un maillage interne correct.

Analyse des codes de statut et detection d'erreurs

Les codes de statut HTTP dans les fichiers de logs revelent la sante de votre structure d'URL du point de vue de Google. Chaque requete Googlebot qui retourne un code de statut non-200 represente une opportunite d'indexation manquee ou du budget de crawl gaspille.

Les chaines de redirections 301 et 302 sont courantes dans les boutiques e-commerce qui changent fréquemment les structures d'URL ou migrent de plateforme. L'analyse des logs revele combien de requetes Googlebot rencontrent des chaines de redirections et la profondeur de ces chaines. Identifiez les URLs ou Googlebot rencontre plus d'un saut de redirection et aplatissez ces chaines.

Les erreurs 404 de Googlebot indiquent des URLs qui etaient autrefois valides mais retournent maintenant des reponses non trouvees. En e-commerce, cela arrive typiquement quand des produits sont arretes ou des catégories reorganisees sans redirections.

Les erreurs serveur 5xx sont les codes de statut les plus dommageables pour le SEO. Elles declenchent une reduction du taux de crawl. L'analyse des logs peut reveler si les erreurs 5xx sont correlees avec des modèles d'URL spécifiques, des periodes horaires ou des pics de trafic.

Les pages soft 404, ou le serveur retourne un code 200 mais le contenu indique que le produit est indisponible, sont plus difficiles a detecter dans les logs seuls. Combinez l'analyse des logs avec des données de crawl pour les identifier.

Les erreurs serveur 5xx sont les codes de statut les plus dommageables pour le SEO et représentent une préoccupation fondamentale du SEO technique.

Aplatir les chaines de redirections ou Googlebot rencontre plus d'un saut vers l'URL finale
Investiguer les pics de 404 correlant avec les changements de sitemap ou les restructurations de catégories
Surveiller les modèles d'erreurs 5xx par type d'URL et heure du jour pour identifier les problemes de capacite serveur
Combiner les données de logs avec l'analyse de crawl pour detecter les pages soft 404 retournant des codes 200

Analyse des modèles et du timing de crawl

Analyser quand Googlebot crawle votre site revele des modèles qui informent la planification de la capacite serveur, les stratégies de fraicheur du contenu et l'optimisation du sitemap. Tracez les requetes Googlebot dans le temps pour identifier les pics et creux d'activite de crawl sur les heures, les jours et les patterns saisonniers.

La plupart des sites e-commerce voient l'activite Googlebot repartie sur la journee mais souvent avec une intensite plus elevee pendant les heures creuses quand les temps de reponse du serveur sont les plus rapides.

Après avoir soumis un sitemap XML mis a jour via la Search Console, surveillez les fichiers de logs pour mesurer la rapidite avec laquelle Googlebot commence a demander les nouvelles URLs. Le delai entre la soumission du sitemap et le crawl reel donne un apercu de la priorisation de Google pour votre domaine.

Suivez la profondeur de crawl que Googlebot atteint dans la hierarchie de votre site. Analysez la profondeur du chemin URL des pages crawlees pour determiner si Googlebot atteint vos pages produit les plus profondes ou s'arrete aux catégories de niveau superieur.

Comparez les modèles de crawl avant et après les changements majeurs du site. Les changements de volume de crawl après un changement technique confirment si la modification a eu l'effet souhaite.

Tracer le volume de requetes Googlebot dans le temps pour identifier les pics et creux d'activite de crawl
Mesurer le delai entre les soumissions de sitemap et les requetes de crawl Googlebot reelles
Analyser la profondeur du chemin URL des pages crawlees pour vérifier que Googlebot atteint les pages produit profondes
Comparer les modèles de crawl avant et après les changements techniques majeurs pour valider l'impact

Mettre en place un pipeline d'analyse de logs

Construire une pratique durable d'analyse de logs nécessite un pipeline qui collecte, traite et visualise automatiquement les données de logs. Pour la plupart des equipes e-commerce, l'objectif est un système fournissant des rapports quotidiens ou hebdomadaires de sante du crawl avec alertes pour les anomalies.

Commencez par determiner ou vos logs sont generes et comment y acceder. Si vous utilisez un hebergement gere ou une plateforme comme Shopify, l'acces aux logs peut etre limite. Pour les boutiques auto-hebergees, configurez votre serveur web pour diffuser les logs vers un emplacement de stockage centralise.

Pour l'analyse, choisissez entre des outils commerciaux et des pipelines personnalises. Les outils commerciaux comme Botify, JetOctopus ou Screaming Frog Log Analyzer offrent des tableaux de bord pre-construits axes sur le SEO. Les pipelines personnalises avec BigQuery ou Elasticsearch offrent plus de flexibilite.

Etablissez des metriques de référence : volume quotidien de requetes Googlebot, ratio de crawl productif, distribution de fréquence de crawl par type de page, taux d'erreur par code de statut et temps de reponse moyen pour les requetes de robots. Configurez des alertes automatisées pour les ecarts par rapport a ces références.

Integrez les données d'analyse de logs avec vos autres sources de données SEO. La combinaison de la fréquence de crawl des logs avec les données d'impressions de la Search Console et les données de trafic Analytics cree une image complete.

Configurer la collecte automatisée des logs depuis votre serveur web ou CDN vers un stockage centralise
Choisir entre des outils de logs commerciaux pour des tableaux de bord pre-construits ou des pipelines personnalises pour la flexibilite
Etablir des metriques de référence pour le volume de crawl, le ratio productif, le taux d'erreur et le temps de reponse
Integrer les données de logs avec Search Console, Analytics et les données d'outils de crawl pour une visibilite SEO complete
Tip

Planifiez des revues mensuelles d'analyse de logs comparant les metriques de crawl actuelles avec vos références et les mois precedents. Creez un modèle de rapport standardise couvrant l'allocation du budget de crawl, les tendances d'erreurs, le nombre de pages orphelines et le ratio d'efficacite du crawl. Un reporting coherent transforme l'analyse de logs d'un audit ponctuel en un avantage concurrentiel continu.

Ce que Trawler revele sur le comportement de crawl (et ce que les logs ne peuvent pas montrer)

Le leak 2024 a nomme le crawler de Google Trawler et a expose les entrees qui pilotent ses décisions de planification. Les logs serveur montrent ce que Trawler a reellement fait - quelles URLs il a demandees, a quelle fréquence, avec quels codes de reponse - mais le leak est ce qui explique pourquoi.

Pour l'analyse de logs ecommerce, cela signifie que des patterns spécifiques ont maintenant des noms spécifiques. Les URLs que Trawler frappe fréquemment avec des 200 sont des pages qu'il considere comme dignes du crawl : elles ont du link equity, une profondeur de liens internes <=3, un lastmod exact et des changements de contenu recents. Les URLs que Trawler frappe rarement ou jamais marquent mal sur ces entrees - et dans 90% des cas, cela correspond a un linking interne mince, pas a des plafonds de crawl budget.

Le leak confirme aussi un pattern longtemps soupconne : Trawler crawle les pages de plus haute qualité PLUS souvent, et les pages de plus basse qualité MOINS souvent. Une fréquence de crawl accrue vers une section est un signal positif - Google la voit comme digne d'etre rafraichie. Une fréquence diminuee, surtout après des mises a jour algorithmiques recentes, correlle souvent avec des signaux lowQuality ou pandaDemotion en hausse sur ces URLs. Lisez-le comme un signal de qualité, pas seulement une question de budget.

Trawler est le nom du leak pour le crawler de Google ; les logs montrent son comportement, le leak explique les entrees
Crawl frequent = link equity + profondeur faible + lastmod exact + mises a jour recentes - diagnostiquez les entrees manquantes d'abord
Trawler crawle les pages de haute qualité plus souvent, basse qualité moins - la chute de crawl est souvent un signal de qualité
La plupart des pages sous-crawlees ont besoin de correctifs de linking interne, pas d'ingenierie de crawl budget

Travaillez avec des experts SEO qui comprennent l’e-commerce

La première agence SEO fondée par des e-commerçants

Analyse des fichiers de logs - EcomSEO Académie | EcomSEO