Fondamenti della ricerca

10 min di lettura

Come Google trova i negozi online

Prima che Google possa posizionare i tuoi prodotti, deve scoprirli. Capire come Googlebot naviga i siti ecommerce rivela perché alcuni negozi ottengono migliaia di pagine indicizzate mentre altri faticano a far notare anche le loro pagine di categoria principali.

Come Googlebot scansiona i siti ecommerce

Googlebot è il software che Google usa per recuperare le pagine web. Funziona seguendo i link da una pagina all'altra, proprio come un acquirente che naviga nel tuo negozio. Quando arriva su una pagina, legge l'HTML, segue i link che trova e aggiunge le nuove URL scoperte alla sua coda di scansione.

Per i siti ecommerce, questo processo di scansione incontra rapidamente complicazioni. Una homepage potrebbe linkare a 15 pagine di categoria, ognuna che linka a 20 sottocategorie, ognuna che elenca 40 prodotti. Sono già 12.000 pagine prodotto scoperte da un singolo percorso di scansione. Ma Googlebot non ha risorse illimitate. Google assegna a ogni sito un budget di crawl basato sull'autorità del sito e la capacità del server.

Un negozio di medie dimensioni con autorità di dominio moderata potrebbe vedere Googlebot richiedere da 5.000 a 15.000 pagine al giorno. Se il tuo negozio ha 80.000 URL incluse le viste filtrate e la paginazione, potrebbero volerci settimane perché Googlebot visiti ogni pagina una volta. Ecco perché l'efficienza del crawl conta così tanto per l'ecommerce. Ogni URL che Googlebot spreca su una pagina filtrata senza valore è una URL che non ha dedicato a una pagina prodotto che vuoi realmente posizionare.

Googlebot segue i link da pagina a pagina per scoprire URL
Ogni sito riceve un budget di crawl basato su autorità e velocità del server
I grandi negozi possono necessitare settimane per una copertura completa
Le pagine senza valore consumano budget che potrebbe andare alle pagine prodotto

La coda di scansione e il sistema di priorità

Googlebot non scansiona tutte le pagine allo stesso modo. Mantiene una coda di priorità che determina quali URL vengono scansionate per prime e con quale frequenza vengono rivisitate. Le pagine che cambiano frequentemente, ricevono più link interni o hanno maggiore autorità vengono scansionate più spesso.

La tua homepage potrebbe essere scansionata più volte al giorno. Le pagine di categoria di primo livello possono essere scansionate quotidianamente o ogni pochi giorni. Le singole pagine prodotto più profonde nella struttura del sito potrebbero essere scansionate solo ogni poche settimane. Per un prodotto stagionale appena lanciato, quel ritardo può significare perdere settimane di traffico di ricerca potenziale.

Possiamo influenzare la priorità di crawl attraverso i link interni. Una pagina prodotto linkata dalla homepage, da una pagina di categoria e da tre articoli del blog verrà scansionata prima e più frequentemente di una accessibile solo attraverso due livelli di navigazione per categorie. Ecco perché il linking interno strategico è una delle tattiche SEO a maggiore impatto per i negozi.

Tip

Controlla le tue statistiche di scansione in Google Search Console sotto Impostazioni > Statistiche di scansione. Se il tempo di risposta medio supera i 500 ms, la velocità del tuo server potrebbe limitare quante pagine Googlebot scansiona al giorno.

Rendering JavaScript e piattaforme ecommerce

Molte piattaforme ecommerce moderne usano JavaScript per caricare informazioni sui prodotti, prezzi e recensioni. I temi Shopify, i negozi headless basati su React e alcune configurazioni WooCommerce si affidano pesantemente al rendering lato client. Questo crea una sfida perché Googlebot scansiona in due fasi.

Nella prima fase, Googlebot recupera l'HTML grezzo. Se il titolo del prodotto, la descrizione e il prezzo vengono caricati tramite JavaScript dopo il rendering della pagina, quel primo recupero HTML restituisce un guscio vuoto. Google poi mette la pagina in coda per una seconda fase di rendering dove esegue JavaScript. Questa coda di rendering può aggiungere giorni o addirittura settimane di ritardo prima che Google veda il tuo contenuto effettivo.

I negozi Shopify che usano il sistema di template Liquid standard generalmente evitano questo problema perché i dati del prodotto vengono renderizzati lato server. Ma i negozi che usano configurazioni headless con framework come Next.js o Nuxt devono implementare il rendering lato server (SSR) o la generazione di siti statici (SSG) per garantire che Googlebot veda il contenuto del prodotto al primo recupero.

Abbiamo auditato negozi dove il 30 % delle pagine prodotto non erano indicizzate perché il markup schema del prodotto, le recensioni e persino il titolo del prodotto venivano tutti caricati tramite JavaScript che Googlebot non riusciva a renderizzare. Il passaggio al rendering lato server ha corretto l'indicizzazione entro tre settimane.

Googlebot scansiona in due fasi: recupero HTML, poi rendering JavaScript
La coda di rendering può ritardare la scoperta del contenuto di giorni o settimane
I template Liquid standard di Shopify renderizzano lato server per default
Le configurazioni headless necessitano SSR o SSG per un'indicizzazione affidabile
Testa le tue pagine con lo strumento Controllo URL per vedere cosa renderizza Google

Sitemap XML per la scoperta dei prodotti

Una sitemap XML è un file che elenca le URL di cui vuoi che Google sia a conoscenza. Per i siti ecommerce, le sitemap servono come canale diretto per dire a Google quali pagine esistono, quando sono state aggiornate l'ultima volta e con quale frequenza cambiano.

Una strategia di sitemap ecommerce ben strutturata usa file sitemap multipli. Una sitemap per le pagine prodotto, un'altra per le pagine di categoria, una per i contenuti del blog e una per le pagine statiche come la pagina chi siamo e la politica di spedizione. Questa separazione ti permette di monitorare l'indicizzazione per tipo di pagina nella Search Console.

Generalmente raccomandiamo di includere solo pagine canoniche e indicizzabili nelle sitemap. Le URL filtrate, le pagine di prodotti esauriti impostate su noindex e le pagine di listing paginate oltre la pagina uno dovrebbero essere escluse. Una sitemap che elenca 200.000 URL quando solo 30.000 sono indicizzabili invia un segnale confuso a Google sulla qualità del tuo sito.

La maggior parte delle piattaforme ecommerce genera sitemap automaticamente. Shopify crea un sitemap.xml che include prodotti, collezioni, pagine e articoli del blog. WooCommerce con Yoast SEO o RankMath genera sitemap con più opzioni di configurazione. Indipendentemente dalla piattaforma, rivedi la tua sitemap mensilmente per assicurarti che rifletta la struttura attuale del tuo sito.

Tip

Invia le tue sitemap in Google Search Console e controlla il rapporto di copertura dopo due settimane. Se il rapporto tra pagine indicizzate e inviate è inferiore al 70 %, indaga perché Google sta scegliendo di non indicizzare una parte significativa delle tue URL inviate.

Problemi di scoperta comuni nell'ecommerce

Il problema di scoperta più comune che vediamo è quello dei negozi che bloccano Googlebot dall'accesso a risorse essenziali nel loro file robots.txt. Alcune installazioni WooCommerce bloccano la directory /wp-admin/, il che è corretto, ma accidentalmente bloccano anche file CSS e JavaScript di cui Googlebot ha bisogno per renderizzare correttamente le pagine.

Un altro problema frequente sono le trappole di crawl infinite dalla navigazione a faccette. Un negozio di abbigliamento che permette agli utenti di combinare filtri di taglia, colore, materiale, marca e prezzo può generare milioni di URL uniche. Senza controlli adeguati, Googlebot può spendere il suo intero budget di crawl esplorando queste combinazioni di filtri senza mai raggiungere le pagine prodotto profonde.

Anche le URL basate sulle sessioni causano problemi. Alcune piattaforme ecommerce aggiungono ID di sessione o parametri di tracciamento alle URL, creando quello che sembra essere migliaia di pagine duplicate. Ogni visita di Googlebot genera una nuova variante di URL, sprecando budget di crawl su pagine che hanno tutte contenuto identico.

Anche la paginazione può rallentare la scoperta. Se la tua pagina di categoria elenca 500 prodotti su 25 pagine paginate, Googlebot deve scansionare la pagina 1, la pagina 2, la pagina 3, e così via per scoprire tutti i prodotti. I prodotti elencati a pagina 20 possono richiedere significativamente più tempo per essere scoperti e indicizzati rispetto a quelli a pagina 1.

Controlla robots.txt per assicurarti che i file CSS e JS non siano bloccati
Implementa controlli sulla navigazione a faccette per prevenire trappole di crawl
Usa tag canonical per gestire ID di sessione e parametri di tracciamento
Considera di caricare più prodotti per pagina per ridurre la profondità di paginazione

Lavora con esperti SEO che capiscono l’e-commerce

La prima agenzia SEO al mondo fondata dall’e-commerce

Come Google trova i negozi online - EcomSEO Academy | EcomSEO