SEO avanzata

12 min di lettura

Analisi dei file di log

I file di log del server sono l'unica fonte di verita su come i crawler dei motori di ricerca interagiscono effettivamente con il vostro sito ecommerce. Mentre strumenti come Google Search Console forniscono riepiloghi aggregati, i dati grezzi dei log rivelano esattamente quali URL Googlebot richiede, con quale frequenza ritorna, quali pagine ignora completamente e dove il vostro budget di crawl viene sprecato. Per i grandi cataloghi ecommerce, l'analisi dei file di log e la differenza tra indovinare i problemi di crawl e diagnosticarli con precisione.

In this guide

1. Comprendere i dati dei log del server per il SEO
2. Analisi del budget di crawl per i cataloghi prodotti
3. Identificare sprechi di crawl e pagine orfane
4. Analisi dei codici di stato e rilevamento degli errori
5. Analisi dei pattern e dei tempi di crawl
6. Configurare una pipeline di analisi dei log

Comprendere i dati dei log del server per il SEO

Ogni volta che un bot di un motore di ricerca richiede una pagina dal vostro server, il server web registra una voce di log contenente l'indirizzo IP, la stringa user agent, l'URL richiesto, il codice di risposta HTTP, la dimensione della risposta, il timestamp e il referrer. Per scopi SEO, i campi critici sono lo user agent, l'URL richiesto, il codice di stato restituito e il timestamp.

Googlebot si identifica attraverso diverse stringhe user agent che distinguono tra rendering desktop, rendering mobile, crawling di immagini, AdsBot e altri crawler specializzati. Filtrare i log solo per le richieste Googlebot richiede la corrispondenza con tutti i pattern di user agent Googlebot conosciuti. Verificate l'identita di Googlebot incrociando gli indirizzi IP con i range ASN pubblicati da Google.

I file di log sono tipicamente memorizzati in Common Log Format (CLF) o Combined Log Format. Se la vostra piattaforma ecommerce funziona dietro un CDN, potreste dover configurare il CDN per trasmettere gli indirizzi IP reali dei client.

Per i negozi ecommerce con volumi di traffico significativi, i file di log grezzi possono crescere a gigabyte al giorno. L'analisi efficiente richiede strumenti specializzati o una pipeline di dati che ingerisce i log in un database interrogabile come BigQuery o Elasticsearch.

Filtrare i log per user agent Googlebot verificati e range IP per escludere bot falsi

Catturare user agent, URL, codice di stato, timestamp e dimensione della risposta come campi minimi

Configurare l'inoltro dei log CDN per assicurare che le richieste dei bot vengano catturate al server di origine

Usare strumenti di analisi log specializzati o pipeline di dati per negozi con alto volume di dati

Tip

Configurate un flusso di log separato dedicato al traffico dei bot che filtra i visitatori umani a livello del server. Questo riduce drasticamente il volume di dati da elaborare e rende l'analisi del comportamento di Googlebot piu rapida e mirata.

Analisi del budget di crawl per i cataloghi prodotti

Il budget di crawl e il numero di pagine che Google scansionera sul vostro sito in un dato periodo. Per i siti piccoli, il budget di crawl e raramente un problema. Ma i negozi ecommerce con decine di migliaia di pagine prodotto, gerarchie di categorie multiple e navigazione a faccette possono facilmente esaurire il budget su URL a basso valore.

L'analisi dei file di log rivela la vostra allocazione effettiva del budget di crawl. Calcolate il numero totale di richieste Googlebot al giorno, poi segmentate quelle richieste per pattern di URL. I pattern comuni da analizzare includono pagine di dettaglio prodotto, pagine di categoria, pagine di risultati di ricerca, URL di navigazione a faccette, pagine paginate e asset statici.

Il rapporto di allocazione del crawl dovrebbe corrispondere approssimativamente alle vostre priorita di indicizzazione. Se il 60% delle richieste di Googlebot punta a URL di navigazione a faccette con contenuto sottile e duplicato, avete un problema severo di budget di crawl.

Calcolate la frequenza di crawl per le vostre pagine piu importanti. Se le pagine prodotto di punta vengono scansionate solo ogni 30 giorni mentre i prodotti esauriti ricevono visite giornaliere, la vostra struttura di link interni sta inviando segnali sbagliati.

Tracciate le tendenze del budget di crawl nel tempo. Un tasso di crawl in calo spesso segnala il deterioramento della salute del sito.

Segmentare le richieste Googlebot per pattern di URL per identificare dove viene speso il budget di crawl

Confrontare i rapporti di allocazione del crawl con la priorita di indicizzazione per ogni tipo di URL

Bloccare i pattern di URL a basso valore che consumano budget di crawl senza beneficio di indicizzazione

Tracciare la frequenza di crawl delle pagine prodotto ad alta priorita per assicurare una copertura adeguata

Identificare sprechi di crawl e pagine orfane

Lo spreco di crawl si verifica quando Googlebot spende tempo e risorse richiedendo URL senza valore SEO. Nei negozi ecommerce, le fonti comuni includono parametri di ID sessione, pagine di risultati di ricerca interna, combinazioni di parametri di ordinamento e filtro, e pagine di carrello e checkout.

L'analisi dei file di log quantifica esattamente quanto budget di crawl consuma ogni categoria di spreco. Incrociate i vostri dati di log con l'indice desiderato confrontando gli URL richiesti da Googlebot con la vostra XML sitemap e il rapporto di copertura dell'indice di Search Console.

Le pagine orfane sono il problema opposto: pagine che esistono e dovrebbero essere indicizzate ma non ricevono mai una singola richiesta da Googlebot. Per trovare le pagine orfane, confrontate la lista completa degli URL prodotto dal vostro database con gli URL che appaiono nei file di log in un periodo di 90 giorni.

Le pagine orfane nell'ecommerce derivano tipicamente da link interni rotti, paginazione profonda che Googlebot non raggiunge, o prodotti recentemente aggiunti non ancora collegati dalle pagine di categoria.

Create una dashboard sistematica di salute del crawl che tracci il rapporto tra crawl produttivi e crawl sprecati. Un sito ecommerce sano dovrebbe puntare ad almeno il 70-80% di rapporto di crawl produttivo.

Quantificare lo spreco di crawl categorizzando le richieste Googlebot a pattern di URL non indicizzabili

Trovare pagine orfane confrontando il database prodotti con i dati di crawl dei log su 90 giorni

Correggere le cause delle pagine orfane: link rotti, paginazione profonda, voci sitemap mancanti

Tracciare il rapporto di crawl produttivo puntando al 70-80% delle richieste Googlebot su pagine indicizzabili

Tip

Esportate la vostra lista di pagine orfane e incrociatela con Google Analytics o i dati di vendita della vostra piattaforma ecommerce. Le pagine orfane con un comprovato storico di conversione rappresentano opportunita immediate di recupero del fatturato una volta che riacquistano visibilita nei risultati di ricerca tramite link interni corretti.

Analisi dei codici di stato e rilevamento degli errori

I codici di stato HTTP nei file di log rivelano la salute della vostra struttura URL dalla prospettiva di Google. Ogni richiesta Googlebot che restituisce un codice di stato diverso da 200 rappresenta un'opportunita di indicizzazione persa o budget di crawl sprecato.

Le catene di redirect 301 e 302 sono comuni nei negozi ecommerce che cambiano frequentemente le strutture URL o migrano piattaforma. L'analisi dei log rivela quante richieste Googlebot incontrano catene di redirect e quanto sono profonde. Identificate gli URL dove Googlebot incontra piu di un salto di redirect e appiattite quelle catene.

Gli errori 404 da Googlebot indicano URL che erano una volta validi ma ora restituiscono risposte non trovato. Nell'ecommerce, questo accade tipicamente quando i prodotti vengono dismessi o le categorie vengono riorganizzate senza implementare redirect.

Gli errori server 5xx sono i codici di stato piu dannosi per il SEO. Attivano la riduzione del tasso di crawl. L'analisi dei log puo rivelare se gli errori 5xx correlano con pattern di URL specifici, periodi temporali o picchi di traffico.

Le pagine soft 404, dove il server restituisce un codice 200 ma il contenuto della pagina indica che il prodotto non e disponibile, sono piu difficili da rilevare nei soli log. Combinate l'analisi dei log con i dati di crawl per identificarle.

Appiattire le catene di redirect dove Googlebot incontra piu di un salto all'URL finale

Investigare i picchi di 404 che correlano con cambiamenti del sitemap, ristrutturazione delle categorie o rimozione di prodotti

Monitorare i pattern di errori 5xx per tipo di URL e ora del giorno per identificare problemi di capacita del server

Combinare i dati dei log con l'analisi di crawl per rilevare pagine soft 404 che restituiscono codici 200

Analisi dei pattern e dei tempi di crawl

Analizzare quando Googlebot scansiona il vostro sito rivela pattern che informano la pianificazione della capacita del server, le strategie di freschezza dei contenuti e l'ottimizzazione del sitemap. Tracciate le richieste Googlebot nel tempo per identificare picchi e valli di attivita di crawl nelle ore del giorno, nei giorni della settimana e nei pattern stagionali.

La maggior parte dei siti ecommerce vede l'attivita di Googlebot distribuita durante il giorno ma spesso con intensita maggiore durante le ore di minor traffico quando i tempi di risposta del server sono piu veloci.

Dopo aver inviato un sitemap XML aggiornato tramite Search Console, monitorate i file di log per misurare quanto rapidamente Googlebot inizia a richiedere i nuovi URL. Il ritardo tra l'invio del sitemap e il crawl effettivo fornisce informazioni sulla prioritizzazione di Google per il vostro dominio.

Tracciate la profondita di crawl che Googlebot raggiunge nella gerarchia del vostro sito. Analizzate la profondita del percorso URL delle pagine scansionate per determinare se Googlebot raggiunge le pagine prodotto piu profonde o si ferma alle categorie di livello superiore.

Confrontate i pattern di crawl prima e dopo i cambiamenti importanti del sito. Le variazioni nel volume di crawl dopo un cambiamento tecnico confermano se la modifica ha avuto l'effetto desiderato.

Tracciare il volume di richieste Googlebot nel tempo per identificare picchi e valli di attivita di crawl

Misurare il ritardo tra gli invii del sitemap e le effettive richieste di crawl di Googlebot

Analizzare la profondita del percorso URL delle pagine scansionate per verificare che Googlebot raggiunga le pagine prodotto profonde

Confrontare i pattern di crawl prima e dopo i cambiamenti tecnici importanti per validare l'impatto

Configurare una pipeline di analisi dei log

Costruire una pratica sostenibile di analisi dei log richiede una pipeline che raccolga, elabori e visualizzi automaticamente i dati dei log. Per la maggior parte dei team ecommerce, l'obiettivo e un sistema che fornisca report giornalieri o settimanali sulla salute del crawl con avvisi per le anomalie.

Iniziate determinando dove vengono generati i vostri log e come accedervi. Se usate hosting gestito o una piattaforma come Shopify, l'accesso ai log potrebbe essere limitato. Per negozi self-hosted, configurate il vostro server web per trasmettere i log a una posizione di storage centralizzata.

Per l'analisi, scegliete tra strumenti commerciali e pipeline personalizzate. Gli strumenti commerciali come Botify, JetOctopus o Screaming Frog Log Analyzer offrono dashboard pre-costruite focalizzate sul SEO. Le pipeline personalizzate con BigQuery o Elasticsearch offrono piu flessibilita.

Stabilite metriche di riferimento: volume giornaliero di richieste Googlebot, rapporto di crawl produttivo, distribuzione della frequenza di crawl per tipo di pagina, tasso di errore per codice di stato e tempo medio di risposta. Impostate avvisi automatizzati per deviazioni da questi riferimenti.

Integrate i dati di analisi dei log con le altre fonti di dati SEO. La combinazione della frequenza di crawl dei log con i dati di impressioni di Search Console e i dati di traffico Analytics crea un quadro completo.

Configurare la raccolta automatizzata dei log dal server web o CDN allo storage centralizzato

Scegliere tra strumenti di log commerciali per dashboard pre-costruite o pipeline personalizzate per la flessibilita

Stabilire metriche di riferimento per volume di crawl, rapporto produttivo, tasso di errore e tempo di risposta

Integrare i dati dei log con Search Console, Analytics e dati di strumenti di crawl per visibilita SEO completa

Tip

Programmate revisioni mensili di analisi dei log che confrontino le metriche di crawl attuali con i vostri riferimenti e i mesi precedenti. Create un modello di report standardizzato che copra allocazione del budget di crawl, tendenze degli errori, conteggio delle pagine orfane e rapporto di efficienza del crawl. Un reporting coerente trasforma l'analisi dei log da un audit una tantum in un vantaggio competitivo continuo.

Strumenti e risorse gratuite

Screaming Frog Log File Analyser Google Crawl Stats Report GoAccess (Free Log Analyzer)

Advanced SEO

JavaScript SEO for Ecommerce

Advanced SEO

SEO A/B Testing

Lavora con esperti SEO che capiscono l’e-commerce

La prima agenzia SEO al mondo fondata dall’e-commerce

Contattaci