SEO Tecnico
10 min di letturaGestione del budget di crawl
Google assegna un numero limitato di pagine che scansionera sul tuo sito in un determinato periodo di tempo. Per i negozi con migliaia di prodotti, pagine di filtri e URL con parametri, una cattiva gestione di questo budget di crawl significa che Google spreca tempo su pagine senza valore ignorando quelle che effettivamente generano ricavi.
In this guide
Cos'e realmente il budget di crawl
Il budget di crawl e la combinazione di due fattori: il limite di frequenza di crawl (quante richieste al secondo Googlebot puo fare senza sovraccaricare il tuo server) e la domanda di crawl (quanto Google vuole esplorare il tuo sito in base alla popolarita e alla freschezza). Insieme, determinano il numero totale di pagine che Googlebot esplorera in un dato periodo.
Per i piccoli negozi con meno di 5.000 pagine, il budget di crawl e raramente un problema. Google esplorera regolarmente l'intero sito senza difficolta. Ma una volta che il tuo negozio supera le 10.000 URL (incluse variazioni di parametri, pagine di filtri e liste paginate), il budget di crawl diventa un vero collo di bottiglia.
Un negozio di moda di medie dimensioni che abbiamo verificato aveva 8.000 prodotti reali ma oltre 340.000 URL scansionabili a causa della navigazione a faccette, parametri colore/taglia, variazioni di ordinamento e paginazione. Googlebot spendeva l'85% del suo budget di crawl su queste pagine di parametri senza valore, mentre il 30% delle pagine prodotto reali non veniva riesplorato da oltre 90 giorni.
Identificare lo spreco di crawl nel tuo negozio
Lo spreco di crawl si verifica quando Googlebot passa tempo a esplorare pagine che non forniscono valore SEO. Nell'e-commerce, le maggiori fonti di spreco sono gli URL di navigazione a faccette, le pagine di parametri, le pagine di risultati di ricerca interna e la paginazione eccessiva.
La navigazione a faccette e la peggiore responsabile. Una pagina di categoria con filtri per marca, colore, taglia, prezzo e valutazione puo generare migliaia di combinazioni di URL. Ogni combinazione (/scarpe?marca=nike&colore=nero&taglia=42) e un URL scansionabile separato che mostra tipicamente gli stessi prodotti in disposizioni leggermente diverse. Google non ha bisogno di esplorare tutti questi.
I parametri di ordinamento sprecano budget di crawl silenziosamente. URL come /categoria?ordina=prezzo-basso, /categoria?ordina=prezzo-alto, /categoria?ordina=piu-recenti e /categoria?ordina=piu-venduti mostrano tutti gli stessi prodotti. Queste pagine non aggiungono contenuto unico ma possono triplicare o quadruplicare il conteggio degli URL scansionabili.
Gli ID di sessione e i parametri di tracciamento aggiunti agli URL (/prodotto?utm_source=email&session=abc123) creano versioni duplicate scansionabili di ogni pagina. Se la tua piattaforma aggiunge questi parametri e non li gestisce con tag canonical, stai moltiplicando inutilmente la tua superficie di crawl.
Scarica i log del tuo server degli ultimi 30 giorni e analizza quali URL Googlebot ha visitato piu frequentemente. Probabilmente scoprirai che le pagine di parametri e gli URL dei filtri dominano il crawl, mentre le pagine prodotto ricevono molte meno visite di quanto dovrebbero.
Bloccare gli URL a basso valore dal crawling
Lo strumento principale per prevenire lo spreco di crawl e il robots.txt. Vietando specifici pattern di URL, dici a Googlebot di non preoccuparsi di esplorare quelle pagine. Per l'e-commerce, questo tipicamente significa bloccare i parametri dei filtri a faccette, gli ordini di classificazione, i risultati di ricerca interna e le pagine carrello/checkout.
Un robots.txt pratico per un negozio e-commerce potrebbe includere regole come Disallow: /*?sort=, Disallow: /*?filter=, Disallow: /search e Disallow: /cart. Queste regole impediscono a Googlebot di sprecare budget di crawl su pagine che non dovrebbero mai apparire nei risultati di ricerca.
Fai attenzione con il blocco robots.txt. Previene il crawling, non l'indicizzazione. Se altre pagine linkano a un URL bloccato, Google potrebbe comunque indicizzarlo basandosi sul testo di ancoraggio e sul contesto dei link, anche senza esplorare la pagina stessa. Per le pagine che vuoi completamente escluse dall'indice, combina il blocco robots.txt con meta tag noindex o tag canonical.
Un altro approccio e utilizzare lo strumento Parametri URL in Google Search Console per indicare a Google come specifici parametri influenzano il contenuto della pagina. Puoi indicare se un parametro come "sort" modifica il contenuto, e se Google dovrebbe esplorare tutti, alcuni o nessun URL con quel parametro.
Dopo aver aggiornato il tuo robots.txt, monitora il rapporto Statistiche di crawl in Google Search Console per due-quattro settimane. Dovresti vedere il totale delle pagine esplorate diminuire mentre la frequenza di crawl delle tue pagine importanti aumenta.
Monitorare le statistiche di crawl in Google Search Console
Google Search Console fornisce un rapporto Statistiche di crawl sotto Impostazioni che mostra come Googlebot interagisce con il tuo sito. Questo rapporto rivela il totale delle richieste di crawl, il tempo di risposta medio, la suddivisione delle richieste per tipo di risposta e lo scopo del crawl (scoperta vs. aggiornamento).
Fai attenzione alla suddivisione dei codici di risposta. Se una percentuale significativa delle richieste di crawl restituisce redirect 301/302, errori 404 o errori server 5xx, stai sprecando budget di crawl su URL rotti o reindirizzati. Un sito e-commerce sano dovrebbe vedere il 90% o piu delle richieste di crawl restituire codici di stato 200.
La suddivisione per tipo di file mostra se Googlebot sta spendendo tempo in modo sproporzionato scaricando immagini, CSS, JavaScript o altre risorse. Se i file JavaScript dominano le tue richieste di crawl, potrebbe indicare problemi di rendering che costringono Googlebot a fare richieste extra.
Confronta le tue statistiche di crawl mese su mese. Un calo improvviso nelle richieste di crawl puo indicare problemi di performance del server o modifiche al robots.txt che hanno bloccato troppo. Un picco improvviso potrebbe significare che Google ha scoperto un nuovo blocco di URL parametrizzati o che una modifica alla sitemap ha esposto pagine precedentemente nascoste.
Rendering lato server ed efficienza del crawl
Come il tuo negozio renderizza le pagine impatta direttamente l'efficienza del crawl. Le pagine renderizzate lato client (CSR) costruite con framework JavaScript come React o Vue richiedono a Googlebot di fare molteplici richieste: prima per scaricare il guscio HTML, poi per recuperare ed eseguire il JavaScript, e infine per renderizzare il contenuto della pagina. Questo processo e piu lento e consuma piu budget di crawl per pagina.
Il rendering lato server (SSR) fornisce HTML completamente renderizzato alla prima richiesta, permettendo a Googlebot di comprendere immediatamente il contenuto della pagina. Per i siti e-commerce, SSR o la generazione statica del sito (SSG) risulta tipicamente nel 40-60% di pagine in piu esplorate per sessione di crawl rispetto agli equivalenti CSR.
I negozi Shopify sono renderizzati lato server per impostazione predefinita, quindi questo e raramente un problema per i commercianti Shopify. Ma i negozi costruiti su architetture headless con React/Next.js o Vue/Nuxt.js devono assicurarsi che la loro implementazione SSR funzioni correttamente. Abbiamo visto negozi headless dove una configurazione SSR errata faceva si che Googlebot vedesse pagine prodotto vuote, portando a una deindicizzazione di massa.
Testa come Google vede le tue pagine usando lo strumento Ispezione URL in GSC. Clicca su "Visualizza pagina testata" per vedere sia la risposta HTML grezza che l'HTML renderizzato. Se alla versione renderizzata mancano informazioni sul prodotto, prezzi o recensioni, la tua configurazione di rendering necessita attenzione.
Dare priorita a cio che viene esplorato
Oltre a bloccare le pagine senza valore, puoi indirizzare attivamente Googlebot verso i tuoi contenuti piu importanti. Il linking interno e il segnale piu forte per la priorita di crawl. Le pagine con piu link interni che puntano ad esse vengono esplorate piu frequentemente e piu rapidamente dopo gli aggiornamenti.
Mantieni la tua sitemap XML snella e accurata. Includi solo le pagine che vuoi genuinamente indicizzare: pagine prodotto, pagine categoria, post del blog chiave e pagine informative essenziali. Rimuovi i prodotti esauriti (o reindirizzali), le pagine noindex e gli URL con parametri dalla tua sitemap. Una sitemap con 5.000 URL importanti batte una con 50.000 URL dove il 90% e spazzatura.
Aggiorna le date lastmod della tua sitemap accuratamente. Quando aggiorni il prezzo, la descrizione o la disponibilita di una pagina prodotto, la data lastmod dovrebbe riflettere il cambiamento. Googlebot usa lastmod come segnale per la priorita di ri-crawl. Abbiamo visto negozi impostare tutte le date lastmod allo stesso valore (o usare la data odierna per ogni pagina), il che distrugge il segnale e fa si che Google ignori completamente lastmod.
Per cambiamenti sensibili al tempo come saldi, riduzioni di prezzo o lanci di nuovi prodotti, puoi usare l'API di Indicizzazione (per tipi di sito idonei) o richiedere manualmente l'indicizzazione tramite lo strumento Ispezione URL di GSC.
Crea una lista delle tue 100 pagine prodotto e categoria che generano piu ricavi. Assicurati che queste pagine abbiano il maggior numero di link interni, appaiano nella tua sitemap e ricevano date lastmod aggiornate ogni volta che il contenuto cambia.
Strumenti e risorse gratuite
Lavora con esperti SEO che capiscono l’e-commerce
La prima agenzia SEO al mondo fondata dall’e-commerce