SEO Tecnico

10 min di lettura

Gestione del budget di crawl

Google assegna un numero limitato di pagine che scansionera sul tuo sito in un determinato periodo di tempo. Per i negozi con migliaia di prodotti, pagine di filtri e URL con parametri, una cattiva gestione di questo budget di crawl significa che Google spreca tempo su pagine senza valore ignorando quelle che effettivamente generano ricavi.

Cos'e realmente il budget di crawl

Il budget di crawl e la combinazione di due fattori: il limite di frequenza di crawl (quante richieste al secondo Googlebot puo fare senza sovraccaricare il tuo server) e la domanda di crawl (quanto Google vuole esplorare il tuo sito in base alla popolarita e alla freschezza). Insieme, determinano il numero totale di pagine che Googlebot esplorera in un dato periodo.

Per i piccoli negozi con meno di 5.000 pagine, il budget di crawl e raramente un problema. Google esplorera regolarmente l'intero sito senza difficolta. Ma una volta che il tuo negozio supera le 10.000 URL (incluse variazioni di parametri, pagine di filtri e liste paginate), il budget di crawl diventa un vero collo di bottiglia.

Un negozio di moda di medie dimensioni che abbiamo verificato aveva 8.000 prodotti reali ma oltre 340.000 URL scansionabili a causa della navigazione a faccette, parametri colore/taglia, variazioni di ordinamento e paginazione. Googlebot spendeva l'85% del suo budget di crawl su queste pagine di parametri senza valore, mentre il 30% delle pagine prodotto reali non veniva riesplorato da oltre 90 giorni.

Limite di frequenza di crawl: richieste massime al secondo che il tuo server puo gestire da Googlebot
Domanda di crawl: interesse di Google per le tue pagine basato su popolarita e obsolescenza
Negozi sotto le 5.000 pagine raramente devono preoccuparsi del budget di crawl
Negozi oltre le 10.000 URL (parametri inclusi) dovrebbero gestire attivamente il budget di crawl

Identificare lo spreco di crawl nel tuo negozio

Lo spreco di crawl si verifica quando Googlebot passa tempo a esplorare pagine che non forniscono valore SEO. Nell'e-commerce, le maggiori fonti di spreco sono gli URL di navigazione a faccette, le pagine di parametri, le pagine di risultati di ricerca interna e la paginazione eccessiva.

La navigazione a faccette e la peggiore responsabile. Una pagina di categoria con filtri per marca, colore, taglia, prezzo e valutazione puo generare migliaia di combinazioni di URL. Ogni combinazione (/scarpe?marca=nike&colore=nero&taglia=42) e un URL scansionabile separato che mostra tipicamente gli stessi prodotti in disposizioni leggermente diverse. Google non ha bisogno di esplorare tutti questi.

I parametri di ordinamento sprecano budget di crawl silenziosamente. URL come /categoria?ordina=prezzo-basso, /categoria?ordina=prezzo-alto, /categoria?ordina=piu-recenti e /categoria?ordina=piu-venduti mostrano tutti gli stessi prodotti. Queste pagine non aggiungono contenuto unico ma possono triplicare o quadruplicare il conteggio degli URL scansionabili.

Gli ID di sessione e i parametri di tracciamento aggiunti agli URL (/prodotto?utm_source=email&session=abc123) creano versioni duplicate scansionabili di ogni pagina. Se la tua piattaforma aggiunge questi parametri e non li gestisce con tag canonical, stai moltiplicando inutilmente la tua superficie di crawl.

Navigazione a faccette: combinazioni di filtri che creano migliaia di URL scansionabili
Parametri di ordinamento: stessi prodotti in ordine diverso, zero contenuto unico
Pagine di ricerca interna: URL /search?q=xyz che Google non dovrebbe mai indicizzare
Parametri di sessione e tracciamento: URL duplicati da tag UTM o ID di sessione
Paginazione oltre pagina 5-10: pagine paginate profonde con valore SEO decrescente
Tip

Scarica i log del tuo server degli ultimi 30 giorni e analizza quali URL Googlebot ha visitato piu frequentemente. Probabilmente scoprirai che le pagine di parametri e gli URL dei filtri dominano il crawl, mentre le pagine prodotto ricevono molte meno visite di quanto dovrebbero.

Bloccare gli URL a basso valore dal crawling

Lo strumento principale per prevenire lo spreco di crawl e il robots.txt. Vietando specifici pattern di URL, dici a Googlebot di non preoccuparsi di esplorare quelle pagine. Per l'e-commerce, questo tipicamente significa bloccare i parametri dei filtri a faccette, gli ordini di classificazione, i risultati di ricerca interna e le pagine carrello/checkout.

Un robots.txt pratico per un negozio e-commerce potrebbe includere regole come Disallow: /*?sort=, Disallow: /*?filter=, Disallow: /search e Disallow: /cart. Queste regole impediscono a Googlebot di sprecare budget di crawl su pagine che non dovrebbero mai apparire nei risultati di ricerca.

Fai attenzione con il blocco robots.txt. Previene il crawling, non l'indicizzazione. Se altre pagine linkano a un URL bloccato, Google potrebbe comunque indicizzarlo basandosi sul testo di ancoraggio e sul contesto dei link, anche senza esplorare la pagina stessa. Per le pagine che vuoi completamente escluse dall'indice, combina il blocco robots.txt con meta tag noindex o tag canonical.

Un altro approccio e utilizzare lo strumento Parametri URL in Google Search Console per indicare a Google come specifici parametri influenzano il contenuto della pagina. Puoi indicare se un parametro come "sort" modifica il contenuto, e se Google dovrebbe esplorare tutti, alcuni o nessun URL con quel parametro.

Tip

Dopo aver aggiornato il tuo robots.txt, monitora il rapporto Statistiche di crawl in Google Search Console per due-quattro settimane. Dovresti vedere il totale delle pagine esplorate diminuire mentre la frequenza di crawl delle tue pagine importanti aumenta.

Monitorare le statistiche di crawl in Google Search Console

Google Search Console fornisce un rapporto Statistiche di crawl sotto Impostazioni che mostra come Googlebot interagisce con il tuo sito. Questo rapporto rivela il totale delle richieste di crawl, il tempo di risposta medio, la suddivisione delle richieste per tipo di risposta e lo scopo del crawl (scoperta vs. aggiornamento).

Fai attenzione alla suddivisione dei codici di risposta. Se una percentuale significativa delle richieste di crawl restituisce redirect 301/302, errori 404 o errori server 5xx, stai sprecando budget di crawl su URL rotti o reindirizzati. Un sito e-commerce sano dovrebbe vedere il 90% o piu delle richieste di crawl restituire codici di stato 200.

La suddivisione per tipo di file mostra se Googlebot sta spendendo tempo in modo sproporzionato scaricando immagini, CSS, JavaScript o altre risorse. Se i file JavaScript dominano le tue richieste di crawl, potrebbe indicare problemi di rendering che costringono Googlebot a fare richieste extra.

Confronta le tue statistiche di crawl mese su mese. Un calo improvviso nelle richieste di crawl puo indicare problemi di performance del server o modifiche al robots.txt che hanno bloccato troppo. Un picco improvviso potrebbe significare che Google ha scoperto un nuovo blocco di URL parametrizzati o che una modifica alla sitemap ha esposto pagine precedentemente nascoste.

Controllare la suddivisione dei codici di risposta: puntare al 90%+ che restituisce codice 200
Verificare la distribuzione per tipo di file: download JS eccessivi segnalano problemi di rendering
Monitorare la divisione dello scopo del crawl: scoperta di nuove pagine vs. aggiornamento
Tracciare le tendenze mensilmente: cali o picchi improvvisi indicano cambiamenti di configurazione

Rendering lato server ed efficienza del crawl

Come il tuo negozio renderizza le pagine impatta direttamente l'efficienza del crawl. Le pagine renderizzate lato client (CSR) costruite con framework JavaScript come React o Vue richiedono a Googlebot di fare molteplici richieste: prima per scaricare il guscio HTML, poi per recuperare ed eseguire il JavaScript, e infine per renderizzare il contenuto della pagina. Questo processo e piu lento e consuma piu budget di crawl per pagina.

Il rendering lato server (SSR) fornisce HTML completamente renderizzato alla prima richiesta, permettendo a Googlebot di comprendere immediatamente il contenuto della pagina. Per i siti e-commerce, SSR o la generazione statica del sito (SSG) risulta tipicamente nel 40-60% di pagine in piu esplorate per sessione di crawl rispetto agli equivalenti CSR.

I negozi Shopify sono renderizzati lato server per impostazione predefinita, quindi questo e raramente un problema per i commercianti Shopify. Ma i negozi costruiti su architetture headless con React/Next.js o Vue/Nuxt.js devono assicurarsi che la loro implementazione SSR funzioni correttamente. Abbiamo visto negozi headless dove una configurazione SSR errata faceva si che Googlebot vedesse pagine prodotto vuote, portando a una deindicizzazione di massa.

Testa come Google vede le tue pagine usando lo strumento Ispezione URL in GSC. Clicca su "Visualizza pagina testata" per vedere sia la risposta HTML grezza che l'HTML renderizzato. Se alla versione renderizzata mancano informazioni sul prodotto, prezzi o recensioni, la tua configurazione di rendering necessita attenzione.

Dare priorita a cio che viene esplorato

Oltre a bloccare le pagine senza valore, puoi indirizzare attivamente Googlebot verso i tuoi contenuti piu importanti. Il linking interno e il segnale piu forte per la priorita di crawl. Le pagine con piu link interni che puntano ad esse vengono esplorate piu frequentemente e piu rapidamente dopo gli aggiornamenti.

Mantieni la tua sitemap XML snella e accurata. Includi solo le pagine che vuoi genuinamente indicizzare: pagine prodotto, pagine categoria, post del blog chiave e pagine informative essenziali. Rimuovi i prodotti esauriti (o reindirizzali), le pagine noindex e gli URL con parametri dalla tua sitemap. Una sitemap con 5.000 URL importanti batte una con 50.000 URL dove il 90% e spazzatura.

Aggiorna le date lastmod della tua sitemap accuratamente. Quando aggiorni il prezzo, la descrizione o la disponibilita di una pagina prodotto, la data lastmod dovrebbe riflettere il cambiamento. Googlebot usa lastmod come segnale per la priorita di ri-crawl. Abbiamo visto negozi impostare tutte le date lastmod allo stesso valore (o usare la data odierna per ogni pagina), il che distrugge il segnale e fa si che Google ignori completamente lastmod.

Per cambiamenti sensibili al tempo come saldi, riduzioni di prezzo o lanci di nuovi prodotti, puoi usare l'API di Indicizzazione (per tipi di sito idonei) o richiedere manualmente l'indicizzazione tramite lo strumento Ispezione URL di GSC.

Rafforzare il linking interno verso pagine prodotto e categoria ad alta priorita
Mantenere le sitemap XML snelle: solo pagine che vuoi indicizzare
Usare date lastmod accurate che riflettano cambiamenti reali del contenuto
Richiedere l'indicizzazione manualmente per cambiamenti urgenti tramite Ispezione URL GSC
Tip

Crea una lista delle tue 100 pagine prodotto e categoria che generano piu ricavi. Assicurati che queste pagine abbiano il maggior numero di link interni, appaiano nella tua sitemap e ricevano date lastmod aggiornate ogni volta che il contenuto cambia.

Lavora con esperti SEO che capiscono l’e-commerce

La prima agenzia SEO al mondo fondata dall’e-commerce

Gestione del budget di crawl - EcomSEO Academy | EcomSEO