SEO avance
12 min de lectureAnalyse des fichiers de logs
Les fichiers de logs serveur sont la seule source de vérité sur la façon dont les robots des moteurs de recherche interagissent reellement avec votre site e-commerce. Alors que des outils comme [Google Search Console](/academy/google-search-console-for-stores) fournissent des resumes agreges, les données brutes des logs revelent exactement quelles URLs Googlebot demande, a quelle fréquence il revient, quelles pages il ignore entierement et ou votre budget de crawl est gaspille. Pour les grands catalogues e-commerce, l'analyse des fichiers de logs fait la difference entre deviner les problemes de crawl et les diagnostiquer avec precision. Alors que des outils comme Google Search Console fournissent des résumés agrégés, les données brutes des logs révèlent exactement quelles URLs Googlebot demande, à quelle fréquence il revient, quelles pages il ignore complètement et où votre [budget de crawl](/academy/crawl-budget-management) est gaspillé.
In this guide
- 1. Comprendre les données de logs serveur pour le SEO
- 2. Analyse du budget de crawl pour les catalogues produits
- 3. Identifier le gaspillage de crawl et les pages orphelines
- 4. Analyse des codes de statut et detection d'erreurs
- 5. Analyse des modèles et du timing de crawl
- 6. Mettre en place un pipeline d'analyse de logs
- 7. Ce que Trawler revele sur le comportement de crawl (et ce que les logs ne peuvent pas montrer)
Comprendre les données de logs serveur pour le SEO
Chaque fois qu'un robot de moteur de recherche demande une page a votre serveur, le serveur web enregistre une entree de log contenant l'adresse IP, la chaine user agent, l'URL demandee, le code de reponse HTTP, la taille de la reponse, l'horodatage et le referrer. Pour le SEO, les champs critiques sont le user agent, l'URL demandee, le code de statut retourne et l'horodatage.
Googlebot s'identifie par plusieurs chaines user agent qui distinguent entre le rendu desktop, le rendu mobile, le crawl d'images, AdsBot et d'autres crawlers specialises. Le filtrage des logs pour les seules requetes Googlebot nécessite la correspondance avec tous les modèles de user agent Googlebot connus. Vérifiez l'identite de Googlebot en croisant les adresses IP avec les plages ASN publiees par Google.
Les fichiers de logs sont generalement stockes en Common Log Format (CLF) ou Combined Log Format. Si votre plateforme e-commerce fonctionne derriere un CDN, vous devrez peut-etre configurer le CDN pour transmettre les vraies adresses IP des clients.
Pour les boutiques e-commerce avec un volume de trafic important, les fichiers de logs bruts peuvent atteindre des gigaoctets par jour. L'analyse efficace nécessite des outils specialises ou un pipeline de données qui ingere les logs dans une base de données interrogeable comme BigQuery ou Elasticsearch.
Configurez un flux de logs separe dedie au trafic des robots qui filtre les visiteurs humains au niveau du serveur. Cela reduit drastiquement le volume de données a traiter et rend l'analyse du comportement de Googlebot plus rapide et ciblee.
Analyse du budget de crawl pour les catalogues produits
Le budget de crawl est le nombre de pages que Google va crawler sur votre site dans une periode donnée. Pour les petits sites, le budget de crawl est rarement un souci. Mais les boutiques e-commerce avec des dizaines de milliers de pages produit, des hierarchies de catégories multiples et une navigation a facettes peuvent facilement epuiser leur budget de crawl sur des URLs a faible valeur.
L'analyse des fichiers de logs revele votre allocation reelle de budget de crawl. Calculez le nombre total de requetes Googlebot par jour, puis segmentez ces requetes par modèle d'URL. Les modèles courants a analyser incluent les pages de detail produit, les pages de catégories, les pages de resultats de recherche, les URLs de navigation a facettes, les pages paginees et les assets statiques.
Le ratio d'allocation du crawl devrait correspondre approximativement a vos priorites d'indexation. Si 60% des requetes de Googlebot ciblent des URLs de navigation a facettes generant du contenu duplique et mince, vous avez un serieux probleme de budget de crawl.
Calculez la fréquence de crawl pour vos pages les plus importantes. Si les pages produit phares ne sont crawlees qu'une fois tous les 30 jours tandis que les produits en rupture de stock recoivent des visites quotidiennes, votre structure de liens internes envoie les mauvais signaux.
Suivez les tendances du budget de crawl dans le temps. Un taux de crawl en baisse signale souvent une degradation de la sante du site.
Crawl-Verschwendung
Segmentez les requêtes Googlebot par modèle d'URL pour identifier où le budget est dépensé. Bloquez les combinaisons de filtres de faible valeur dans robots.txt et utilisez des balises canoniques pour rediriger l'attention de l'analyse vers le produit indexable.
Identifier le gaspillage de crawl et les pages orphelines
Le gaspillage de crawl se produit quand Googlebot passe du temps et des ressources a demander des URLs sans valeur SEO. Dans les boutiques e-commerce, les sources courantes incluent les parametres d'ID de session, les pages de resultats de recherche interne, les combinaisons de parametres de tri et de filtrage, et les pages de panier et de paiement.
L'analyse des fichiers de logs quantifie exactement combien de budget de crawl chaque catégorie de gaspillage consomme. Croisez vos données de logs avec votre index souhaite en comparant les URLs demandees par Googlebot avec votre sitemap XML et le rapport de couverture d'index de la Search Console.
Les pages orphelines sont le probleme inverse : des pages qui existent et devraient etre indexees mais ne recoivent jamais une seule requete Googlebot. Pour trouver les pages orphelines, comparez la liste complete des URLs produit de votre base de données avec les URLs apparaissant dans vos fichiers de logs sur une periode de 90 jours.
Les pages orphelines en e-commerce proviennent typiquement d'un maillage interne casse, d'une pagination profonde que Googlebot n'atteint pas, ou de produits recemment ajoutes pas encore lies depuis les pages de catégories.
Creez un tableau de bord systematique de sante du crawl qui suit le ratio de crawls productifs versus crawls gaspilles. Un site e-commerce sain devrait viser au moins 70-80% de ratio de crawl productif.
Verwaiste Seiten
Les pages orphelines avec un historique de conversion éprouvé représentent des opportunités immédiates de récupération de revenus. Croisez les URL orphelines avec les données de vente pour prioriser les pages à reconnecter via un lien interne
Exportez votre liste de pages orphelines et croisez-la avec Google Analytics ou les données de vente de votre plateforme e-commerce. Les pages orphelines avec un historique de conversion prouve representent des opportunites immediates de recuperation de revenus une fois qu'elles retrouvent la visibilite par un maillage interne correct.
Analyse des codes de statut et detection d'erreurs
Les codes de statut HTTP dans les fichiers de logs revelent la sante de votre structure d'URL du point de vue de Google. Chaque requete Googlebot qui retourne un code de statut non-200 represente une opportunite d'indexation manquee ou du budget de crawl gaspille.
Les chaines de redirections 301 et 302 sont courantes dans les boutiques e-commerce qui changent fréquemment les structures d'URL ou migrent de plateforme. L'analyse des logs revele combien de requetes Googlebot rencontrent des chaines de redirections et la profondeur de ces chaines. Identifiez les URLs ou Googlebot rencontre plus d'un saut de redirection et aplatissez ces chaines.
Les erreurs 404 de Googlebot indiquent des URLs qui etaient autrefois valides mais retournent maintenant des reponses non trouvees. En e-commerce, cela arrive typiquement quand des produits sont arretes ou des catégories reorganisees sans redirections.
Les erreurs serveur 5xx sont les codes de statut les plus dommageables pour le SEO. Elles declenchent une reduction du taux de crawl. L'analyse des logs peut reveler si les erreurs 5xx sont correlees avec des modèles d'URL spécifiques, des periodes horaires ou des pics de trafic.
Les pages soft 404, ou le serveur retourne un code 200 mais le contenu indique que le produit est indisponible, sont plus difficiles a detecter dans les logs seuls. Combinez l'analyse des logs avec des données de crawl pour les identifier.
Les erreurs serveur 5xx sont les codes de statut les plus dommageables pour le SEO et représentent une préoccupation fondamentale du SEO technique.
Analyse des modèles et du timing de crawl
Analyser quand Googlebot crawle votre site revele des modèles qui informent la planification de la capacite serveur, les stratégies de fraicheur du contenu et l'optimisation du sitemap. Tracez les requetes Googlebot dans le temps pour identifier les pics et creux d'activite de crawl sur les heures, les jours et les patterns saisonniers.
La plupart des sites e-commerce voient l'activite Googlebot repartie sur la journee mais souvent avec une intensite plus elevee pendant les heures creuses quand les temps de reponse du serveur sont les plus rapides.
Après avoir soumis un sitemap XML mis a jour via la Search Console, surveillez les fichiers de logs pour mesurer la rapidite avec laquelle Googlebot commence a demander les nouvelles URLs. Le delai entre la soumission du sitemap et le crawl reel donne un apercu de la priorisation de Google pour votre domaine.
Suivez la profondeur de crawl que Googlebot atteint dans la hierarchie de votre site. Analysez la profondeur du chemin URL des pages crawlees pour determiner si Googlebot atteint vos pages produit les plus profondes ou s'arrete aux catégories de niveau superieur.
Comparez les modèles de crawl avant et après les changements majeurs du site. Les changements de volume de crawl après un changement technique confirment si la modification a eu l'effet souhaite.
Mettre en place un pipeline d'analyse de logs
Construire une pratique durable d'analyse de logs nécessite un pipeline qui collecte, traite et visualise automatiquement les données de logs. Pour la plupart des equipes e-commerce, l'objectif est un système fournissant des rapports quotidiens ou hebdomadaires de sante du crawl avec alertes pour les anomalies.
Commencez par determiner ou vos logs sont generes et comment y acceder. Si vous utilisez un hebergement gere ou une plateforme comme Shopify, l'acces aux logs peut etre limite. Pour les boutiques auto-hebergees, configurez votre serveur web pour diffuser les logs vers un emplacement de stockage centralise.
Pour l'analyse, choisissez entre des outils commerciaux et des pipelines personnalises. Les outils commerciaux comme Botify, JetOctopus ou Screaming Frog Log Analyzer offrent des tableaux de bord pre-construits axes sur le SEO. Les pipelines personnalises avec BigQuery ou Elasticsearch offrent plus de flexibilite.
Etablissez des metriques de référence : volume quotidien de requetes Googlebot, ratio de crawl productif, distribution de fréquence de crawl par type de page, taux d'erreur par code de statut et temps de reponse moyen pour les requetes de robots. Configurez des alertes automatisées pour les ecarts par rapport a ces références.
Integrez les données d'analyse de logs avec vos autres sources de données SEO. La combinaison de la fréquence de crawl des logs avec les données d'impressions de la Search Console et les données de trafic Analytics cree une image complete.
Planifiez des revues mensuelles d'analyse de logs comparant les metriques de crawl actuelles avec vos références et les mois precedents. Creez un modèle de rapport standardise couvrant l'allocation du budget de crawl, les tendances d'erreurs, le nombre de pages orphelines et le ratio d'efficacite du crawl. Un reporting coherent transforme l'analyse de logs d'un audit ponctuel en un avantage concurrentiel continu.
Ce que Trawler revele sur le comportement de crawl (et ce que les logs ne peuvent pas montrer)
Le leak 2024 a nomme le crawler de Google Trawler et a expose les entrees qui pilotent ses décisions de planification. Les logs serveur montrent ce que Trawler a reellement fait - quelles URLs il a demandees, a quelle fréquence, avec quels codes de reponse - mais le leak est ce qui explique pourquoi.
Pour l'analyse de logs ecommerce, cela signifie que des patterns spécifiques ont maintenant des noms spécifiques. Les URLs que Trawler frappe fréquemment avec des 200 sont des pages qu'il considere comme dignes du crawl : elles ont du link equity, une profondeur de liens internes <=3, un lastmod exact et des changements de contenu recents. Les URLs que Trawler frappe rarement ou jamais marquent mal sur ces entrees - et dans 90% des cas, cela correspond a un linking interne mince, pas a des plafonds de crawl budget.
Le leak confirme aussi un pattern longtemps soupconne : Trawler crawle les pages de plus haute qualité PLUS souvent, et les pages de plus basse qualité MOINS souvent. Une fréquence de crawl accrue vers une section est un signal positif - Google la voit comme digne d'etre rafraichie. Une fréquence diminuee, surtout après des mises a jour algorithmiques recentes, correlle souvent avec des signaux lowQuality ou pandaDemotion en hausse sur ces URLs. Lisez-le comme un signal de qualité, pas seulement une question de budget.
Outils et ressources gratuits
Nos outils SEO gratuits
Travaillez avec des experts SEO qui comprennent l’e-commerce
La première agence SEO fondée par des e-commerçants