SEO Tecnica
12 min di letturaRobots.txt e Sitemap XML
Il tuo file robots.txt e le sitemap XML sono due dei file SEO tecnici piu fondamentali del tuo negozio ecommerce. Insieme, controllano cosa i motori di ricerca possono scansionare e forniscono una mappa delle pagine che vuoi indicizzare. Configurarli in modo errato puo nascondere i tuoi migliori prodotti da Google o inondare l'indice con pagine di filtri di basso valore che cannibalizzano i tuoi posizionamenti.
In this guide
- 1. Fondamenti del robots.txt per l'ecommerce
- 2. Regole robots.txt essenziali per i negozi online
- 3. Struttura delle sitemap XML per i cataloghi prodotti
- 4. Lastmod, Priority e Changefreq: cosa conta davvero
- 5. Gestire i prodotti esauriti nelle sitemap
- 6. Coordinare robots.txt e sitemap per il massimo impatto
Fondamenti del robots.txt per l'ecommerce
Il file robots.txt si trova alla radice del tuo dominio (example.com/robots.txt) e fornisce direttive di crawling ai bot dei motori di ricerca. Utilizza una sintassi semplice: User-agent specifica quale bot e interessato dalle regole, Disallow blocca percorsi URL specifici dalla scansione, e Allow annulla un Disallow per sotto-percorsi specifici. Il file e accessibile pubblicamente, quindi non usarlo mai per nascondere contenuto sensibile.
Per i negozi ecommerce, robots.txt svolge un ruolo critico nella gestione del budget di crawl. Senza restrizioni, i bot tenteranno di scansionare ogni URL scopribile sul tuo sito, incluse pagine carrello, flussi di pagamento, pagine account, risultati di ricerca interna e migliaia di URL di navigazione a faccette. Queste pagine sprecano budget di crawl e possono creare problemi di contenuto duplicato se vengono indicizzate.
Un'idea errata comune e che robots.txt prevenga l'indicizzazione. Non lo fa. Robots.txt previene solo la scansione. Se un'altra pagina contiene un link a un URL bloccato, Google puo comunque indicizzare quell'URL basandosi sul testo ancora e sul contesto circostante.
Ogni negozio ecommerce dovrebbe testare il proprio file robots.txt usando lo strumento di test robots.txt di Google Search Console prima di implementare modifiche. Un singolo carattere jolly mal posizionato o una regola Disallow troppo ampia puo accidentalmente bloccare l'intero catalogo prodotti dalla scansione.
Mantieni un backup del tuo robots.txt prima di apportare modifiche. Un file robots.txt rotto che accidentalmente blocca tutto (Disallow: /) puo causare una perdita catastrofica di traffico organico in pochi giorni.
Regole robots.txt essenziali per i negozi online
Ogni robots.txt ecommerce dovrebbe bloccare diverse categorie di URL di basso valore. Le pagine carrello e pagamento (/cart, /checkout, /account) non forniscono valore SEO e contengono contenuto specifico dell'utente. Le pagine di risultati di ricerca interna (/search?q=) generano migliaia di pagine a contenuto sottile che duplicano i tuoi elenchi di categorie e possono portare a cannibalizzazione delle keyword.
I parametri di navigazione a faccette rappresentano la maggiore fonte di spreco di crawl nella maggior parte dei negozi. Regole come Disallow: /*?color=, Disallow: /*?size=, Disallow: /*?brand= e Disallow: /*?sort= impediscono ai bot di scansionare l'esplosione combinatoria degli URL dei filtri. Sii strategico su quali parametri bloccare. Se il tuo negozio ha pagine SEO ottimizzate per marchi specifici, non bloccare il parametro marca globalmente.
I parametri di ordinamento dovrebbero sempre essere bloccati. URL come /categoria?sort=prezzo-asc e /categoria?sort=piu-recenti mostrano gli stessi prodotti in ordine diverso e aggiungono zero contenuto unico. Similmente, i parametri di paginazione oltre una profondita ragionevole possono essere limitati.
Includi sempre una direttiva Sitemap alla fine del tuo robots.txt che punta alla tua sitemap XML. Questo aiuta i motori di ricerca a scoprire la tua sitemap. Il formato e semplice: Sitemap: https://www.example.com/sitemap.xml.
Usa i pattern jolly con attenzione. Disallow: /*? bloccherebbe tutti gli URL con qualsiasi parametro di query, inclusi quelli potenzialmente preziosi. Blocca invece singolarmente nomi di parametri specifici.
Struttura delle sitemap XML per i cataloghi prodotti
Una sitemap XML e un file strutturato che elenca gli URL che vuoi che i motori di ricerca scoprano e indicizzino. Per i negozi ecommerce con grandi cataloghi, un'architettura sitemap appropriata e fondamentale perche influenza direttamente quali pagine Google priorizza per la scansione e l'indicizzazione.
Usa un file indice sitemap come sitemap principale che referenzia multiple sitemap figlie organizzate per tipo di contenuto. Una struttura sitemap ecommerce tipica include sitemap separate per pagine prodotto (sitemap-products.xml), pagine categoria (sitemap-categories.xml), articoli blog (sitemap-blog.xml) e pagine statiche (sitemap-pages.xml).
Ogni sitemap XML ha un limite di 50.000 URL e 50 MB di dimensione non compressa. Per negozi con piu di 50.000 prodotti, dividi la tua sitemap prodotti in piu file, idealmente organizzati per categoria o reparto. Questo raggruppamento logico facilita il monitoraggio dei tassi di indicizzazione per categoria in Google Search Console.
Ogni URL nella tua sitemap dovrebbe essere la versione canonica di quella pagina. Non includere mai URL che reindirizzano, restituiscono errori 404, hanno tag noindex o sono bloccati da robots.txt. Includere questi URL spreca lo sforzo di scansione di Google e erode la fiducia nell'affidabilita del tuo file sitemap.
Invia la tua sitemap tramite Google Search Console e controlla il rapporto di copertura regolarmente. GSC ti dira esattamente quanti URL dalla tua sitemap sono stati indicizzati, esclusi o hanno avuto errori.
Lastmod, Priority e Changefreq: cosa conta davvero
Le sitemap XML supportano diversi attributi opzionali per ogni URL: lastmod (data dell'ultima modifica), priority (importanza relativa da 0,0 a 1,0) e changefreq (frequenza di cambiamento prevista). In pratica, solo lastmod fornisce valore significativo. Google ha dichiarato pubblicamente che ignora completamente gli attributi priority e changefreq perche i webmaster li impostano incorrettamente cosi spesso che non portano alcun segnale affidabile.
L'attributo lastmod indica ai motori di ricerca quando il contenuto di una pagina e stato significativamente aggiornato l'ultima volta. E un segnale genuino che Google usa per priorizzare il ri-crawl. Quando aggiorni il prezzo, la disponibilita, la descrizione o le immagini di un prodotto, la data lastmod dovrebbe riflettere quel cambiamento.
L'errore critico che molti negozi commettono e impostare lastmod alla data corrente per tutte le pagine ogni volta che la sitemap si rigenera. Se la tua sitemap si ricostruisce ogni notte e marca ogni URL con la data odierna, Google impara rapidamente che le tue date lastmod sono insignificanti. Abbiamo verificato negozi dove la sola correzione delle date lastmod inaccurate ha portato a un'indicizzazione piu veloce del 30% degli aggiornamenti prodotto.
Per l'ecommerce nello specifico, collega lastmod ai cambiamenti reali dei dati nel tuo sistema di gestione delle informazioni prodotto. Quando cambiano i livelli di inventario, quando si aggiornano i prezzi, quando vengono pubblicate nuove recensioni, aggiorna la data lastmod per quegli URL prodotto specifici.
Dopo aver corretto la tua implementazione lastmod, monitora il rapporto statistiche di crawl in Google Search Console. Dovresti vedere Google spostare il suo focus di crawl verso pagine aggiornate di recente entro due-quattro settimane.
Gestire i prodotti esauriti nelle sitemap
I prodotti esauriti presentano una sfida sitemap unica per i negozi ecommerce. L'approccio corretto dipende dal fatto che il prodotto sia temporaneamente non disponibile o permanentemente fuori produzione, e dal fatto che la pagina prodotto abbia accumulato backlink e autorita di ricerca preziosi.
Per i prodotti temporaneamente esauriti che prevedi di rifornire, mantieni la pagina prodotto attiva e nella tua sitemap. Aggiorna la pagina per indicare chiaramente che il prodotto e attualmente non disponibile e offri alternative o un'iscrizione per la notifica di rifornimento.
Per i prodotti permanentemente fuori produzione senza valore SEO, rimuovili dalla tua sitemap e eventualmente dal sito. Lasciali restituire naturalmente un 404.
Per i prodotti fuori produzione con autorita di backlink significativa, implementa un redirect 301 al prodotto sostitutivo o alla pagina categoria piu rilevante. Rimuovi l'URL fuori produzione dalla tua sitemap e aggiungi l'URL target del redirect.
Non lasciare mai centinaia di URL di prodotti fuori produzione che restituiscono 404 nella tua sitemap. Questo erode la fiducia di Google nell'affidabilita della tua sitemap e spreca budget di crawl. Esegui una pulizia trimestrale per rimuovere qualsiasi URL non-200 dai tuoi file sitemap.
Crea un processo automatizzato che rimuova gli URL prodotto dalla tua sitemap quando restituiscono codici di stato non-200 per piu di sette giorni consecutivi.
Coordinare robots.txt e sitemap per il massimo impatto
Robots.txt e sitemap XML devono lavorare insieme come un sistema coordinato. Il tuo robots.txt dice ai motori di ricerca cosa non scansionare, mentre la tua sitemap dice loro cosa priorizzare. Segnali contrastanti tra questi due file creano confusione e sforzo sprecato.
Il fallimento di coordinazione piu comune e includere nella tua sitemap URL bloccati da robots.txt. Se il tuo robots.txt contiene Disallow: /search e la tua sitemap include URL come /search?q=termine-popolare, stai inviando segnali contraddittori. Pulisci la tua sitemap per garantire zero sovrapposizione con le regole Disallow del robots.txt.
Un secondo problema di coordinazione riguarda gli URL canonici. La tua sitemap dovrebbe contenere solo la versione canonica di ogni URL. Se un prodotto e accessibile sia a /products/scarpe che a /categoria/calzature?product=scarpe, solo l'URL canonico dovrebbe apparire nella sitemap.
Per i grandi siti ecommerce, crea una strategia di crawl a livelli. Usa robots.txt per bloccare pattern di URL che non dovrebbero mai essere scansionati. Usa le sitemap per dichiarare proattivamente quali URL sono piu importanti. Usa i link interni per rafforzare la priorita di crawl per le tue pagine prodotto e categoria di maggior valore.
Infine, monitora entrambi i file continuamente. Imposta avvisi per modifiche al tuo robots.txt e programma una validazione settimanale della sitemap. Un deployment che modifica inavvertitamente il robots.txt o rompe la generazione della sitemap puo richiedere settimane per il recupero.
Dopo ogni aggiornamento della piattaforma o cambio tema, verifica immediatamente il tuo robots.txt e rigenera la tua sitemap. Incrocia i due file per assicurarti che nessun URL della sitemap sia bloccato e che nessuna pagina critica manchi dalla sitemap.
Strumenti e risorse gratuite
Lavora con esperti SEO che capiscono l’e-commerce
La prima agenzia SEO al mondo fondata dall’e-commerce