SEO avanzata
12 min di letturaAnalisi dei file di log
I file di log del server sono l'unica fonte di verita su come i crawler dei motori di ricerca interagiscono effettivamente con il vostro sito ecommerce. Mentre strumenti come Google Search Console forniscono riepiloghi aggregati, i dati grezzi dei log rivelano esattamente quali URL Googlebot richiede, con quale frequenza ritorna, quali pagine ignora completamente e dove il vostro budget di crawl viene sprecato. Per i grandi cataloghi ecommerce, l'analisi dei file di log e la differenza tra indovinare i problemi di crawl e diagnosticarli con precisione.
In this guide
- 1. Comprendere i dati dei log del server per il SEO
- 2. Analisi del budget di crawl per i cataloghi prodotti
- 3. Identificare sprechi di crawl e pagine orfane
- 4. Analisi dei codici di stato e rilevamento degli errori
- 5. Analisi dei pattern e dei tempi di crawl
- 6. Configurare una pipeline di analisi dei log
Comprendere i dati dei log del server per il SEO
Ogni volta che un bot di un motore di ricerca richiede una pagina dal vostro server, il server web registra una voce di log contenente l'indirizzo IP, la stringa user agent, l'URL richiesto, il codice di risposta HTTP, la dimensione della risposta, il timestamp e il referrer. Per scopi SEO, i campi critici sono lo user agent, l'URL richiesto, il codice di stato restituito e il timestamp.
Googlebot si identifica attraverso diverse stringhe user agent che distinguono tra rendering desktop, rendering mobile, crawling di immagini, AdsBot e altri crawler specializzati. Filtrare i log solo per le richieste Googlebot richiede la corrispondenza con tutti i pattern di user agent Googlebot conosciuti. Verificate l'identita di Googlebot incrociando gli indirizzi IP con i range ASN pubblicati da Google.
I file di log sono tipicamente memorizzati in Common Log Format (CLF) o Combined Log Format. Se la vostra piattaforma ecommerce funziona dietro un CDN, potreste dover configurare il CDN per trasmettere gli indirizzi IP reali dei client.
Per i negozi ecommerce con volumi di traffico significativi, i file di log grezzi possono crescere a gigabyte al giorno. L'analisi efficiente richiede strumenti specializzati o una pipeline di dati che ingerisce i log in un database interrogabile come BigQuery o Elasticsearch.
Configurate un flusso di log separato dedicato al traffico dei bot che filtra i visitatori umani a livello del server. Questo riduce drasticamente il volume di dati da elaborare e rende l'analisi del comportamento di Googlebot piu rapida e mirata.
Analisi del budget di crawl per i cataloghi prodotti
Il budget di crawl e il numero di pagine che Google scansionera sul vostro sito in un dato periodo. Per i siti piccoli, il budget di crawl e raramente un problema. Ma i negozi ecommerce con decine di migliaia di pagine prodotto, gerarchie di categorie multiple e navigazione a faccette possono facilmente esaurire il budget su URL a basso valore.
L'analisi dei file di log rivela la vostra allocazione effettiva del budget di crawl. Calcolate il numero totale di richieste Googlebot al giorno, poi segmentate quelle richieste per pattern di URL. I pattern comuni da analizzare includono pagine di dettaglio prodotto, pagine di categoria, pagine di risultati di ricerca, URL di navigazione a faccette, pagine paginate e asset statici.
Il rapporto di allocazione del crawl dovrebbe corrispondere approssimativamente alle vostre priorita di indicizzazione. Se il 60% delle richieste di Googlebot punta a URL di navigazione a faccette con contenuto sottile e duplicato, avete un problema severo di budget di crawl.
Calcolate la frequenza di crawl per le vostre pagine piu importanti. Se le pagine prodotto di punta vengono scansionate solo ogni 30 giorni mentre i prodotti esauriti ricevono visite giornaliere, la vostra struttura di link interni sta inviando segnali sbagliati.
Tracciate le tendenze del budget di crawl nel tempo. Un tasso di crawl in calo spesso segnala il deterioramento della salute del sito.
Identificare sprechi di crawl e pagine orfane
Lo spreco di crawl si verifica quando Googlebot spende tempo e risorse richiedendo URL senza valore SEO. Nei negozi ecommerce, le fonti comuni includono parametri di ID sessione, pagine di risultati di ricerca interna, combinazioni di parametri di ordinamento e filtro, e pagine di carrello e checkout.
L'analisi dei file di log quantifica esattamente quanto budget di crawl consuma ogni categoria di spreco. Incrociate i vostri dati di log con l'indice desiderato confrontando gli URL richiesti da Googlebot con la vostra XML sitemap e il rapporto di copertura dell'indice di Search Console.
Le pagine orfane sono il problema opposto: pagine che esistono e dovrebbero essere indicizzate ma non ricevono mai una singola richiesta da Googlebot. Per trovare le pagine orfane, confrontate la lista completa degli URL prodotto dal vostro database con gli URL che appaiono nei file di log in un periodo di 90 giorni.
Le pagine orfane nell'ecommerce derivano tipicamente da link interni rotti, paginazione profonda che Googlebot non raggiunge, o prodotti recentemente aggiunti non ancora collegati dalle pagine di categoria.
Create una dashboard sistematica di salute del crawl che tracci il rapporto tra crawl produttivi e crawl sprecati. Un sito ecommerce sano dovrebbe puntare ad almeno il 70-80% di rapporto di crawl produttivo.
Esportate la vostra lista di pagine orfane e incrociatela con Google Analytics o i dati di vendita della vostra piattaforma ecommerce. Le pagine orfane con un comprovato storico di conversione rappresentano opportunita immediate di recupero del fatturato una volta che riacquistano visibilita nei risultati di ricerca tramite link interni corretti.
Analisi dei codici di stato e rilevamento degli errori
I codici di stato HTTP nei file di log rivelano la salute della vostra struttura URL dalla prospettiva di Google. Ogni richiesta Googlebot che restituisce un codice di stato diverso da 200 rappresenta un'opportunita di indicizzazione persa o budget di crawl sprecato.
Le catene di redirect 301 e 302 sono comuni nei negozi ecommerce che cambiano frequentemente le strutture URL o migrano piattaforma. L'analisi dei log rivela quante richieste Googlebot incontrano catene di redirect e quanto sono profonde. Identificate gli URL dove Googlebot incontra piu di un salto di redirect e appiattite quelle catene.
Gli errori 404 da Googlebot indicano URL che erano una volta validi ma ora restituiscono risposte non trovato. Nell'ecommerce, questo accade tipicamente quando i prodotti vengono dismessi o le categorie vengono riorganizzate senza implementare redirect.
Gli errori server 5xx sono i codici di stato piu dannosi per il SEO. Attivano la riduzione del tasso di crawl. L'analisi dei log puo rivelare se gli errori 5xx correlano con pattern di URL specifici, periodi temporali o picchi di traffico.
Le pagine soft 404, dove il server restituisce un codice 200 ma il contenuto della pagina indica che il prodotto non e disponibile, sono piu difficili da rilevare nei soli log. Combinate l'analisi dei log con i dati di crawl per identificarle.
Analisi dei pattern e dei tempi di crawl
Analizzare quando Googlebot scansiona il vostro sito rivela pattern che informano la pianificazione della capacita del server, le strategie di freschezza dei contenuti e l'ottimizzazione del sitemap. Tracciate le richieste Googlebot nel tempo per identificare picchi e valli di attivita di crawl nelle ore del giorno, nei giorni della settimana e nei pattern stagionali.
La maggior parte dei siti ecommerce vede l'attivita di Googlebot distribuita durante il giorno ma spesso con intensita maggiore durante le ore di minor traffico quando i tempi di risposta del server sono piu veloci.
Dopo aver inviato un sitemap XML aggiornato tramite Search Console, monitorate i file di log per misurare quanto rapidamente Googlebot inizia a richiedere i nuovi URL. Il ritardo tra l'invio del sitemap e il crawl effettivo fornisce informazioni sulla prioritizzazione di Google per il vostro dominio.
Tracciate la profondita di crawl che Googlebot raggiunge nella gerarchia del vostro sito. Analizzate la profondita del percorso URL delle pagine scansionate per determinare se Googlebot raggiunge le pagine prodotto piu profonde o si ferma alle categorie di livello superiore.
Confrontate i pattern di crawl prima e dopo i cambiamenti importanti del sito. Le variazioni nel volume di crawl dopo un cambiamento tecnico confermano se la modifica ha avuto l'effetto desiderato.
Configurare una pipeline di analisi dei log
Costruire una pratica sostenibile di analisi dei log richiede una pipeline che raccolga, elabori e visualizzi automaticamente i dati dei log. Per la maggior parte dei team ecommerce, l'obiettivo e un sistema che fornisca report giornalieri o settimanali sulla salute del crawl con avvisi per le anomalie.
Iniziate determinando dove vengono generati i vostri log e come accedervi. Se usate hosting gestito o una piattaforma come Shopify, l'accesso ai log potrebbe essere limitato. Per negozi self-hosted, configurate il vostro server web per trasmettere i log a una posizione di storage centralizzata.
Per l'analisi, scegliete tra strumenti commerciali e pipeline personalizzate. Gli strumenti commerciali come Botify, JetOctopus o Screaming Frog Log Analyzer offrono dashboard pre-costruite focalizzate sul SEO. Le pipeline personalizzate con BigQuery o Elasticsearch offrono piu flessibilita.
Stabilite metriche di riferimento: volume giornaliero di richieste Googlebot, rapporto di crawl produttivo, distribuzione della frequenza di crawl per tipo di pagina, tasso di errore per codice di stato e tempo medio di risposta. Impostate avvisi automatizzati per deviazioni da questi riferimenti.
Integrate i dati di analisi dei log con le altre fonti di dati SEO. La combinazione della frequenza di crawl dei log con i dati di impressioni di Search Console e i dati di traffico Analytics crea un quadro completo.
Programmate revisioni mensili di analisi dei log che confrontino le metriche di crawl attuali con i vostri riferimenti e i mesi precedenti. Create un modello di report standardizzato che copra allocazione del budget di crawl, tendenze degli errori, conteggio delle pagine orfane e rapporto di efficienza del crawl. Un reporting coerente trasforma l'analisi dei log da un audit una tantum in un vantaggio competitivo continuo.
Strumenti e risorse gratuite
Lavora con esperti SEO che capiscono l’e-commerce
La prima agenzia SEO al mondo fondata dall’e-commerce