SEO Tecnica

12 min di lettura

Robots.txt e Sitemap XML

Il tuo file robots.txt e le sitemap XML sono due dei file SEO tecnici piu fondamentali del tuo negozio ecommerce. Insieme, controllano cosa i motori di ricerca possono scansionare e forniscono una mappa delle pagine che vuoi indicizzare. Configurarli in modo errato puo nascondere i tuoi migliori prodotti da Google o inondare l'indice con pagine di filtri di basso valore che cannibalizzano i tuoi posizionamenti.

Fondamenti del robots.txt per l'ecommerce

Il file robots.txt si trova alla radice del tuo dominio (example.com/robots.txt) e fornisce direttive di crawling ai bot dei motori di ricerca. Utilizza una sintassi semplice: User-agent specifica quale bot e interessato dalle regole, Disallow blocca percorsi URL specifici dalla scansione, e Allow annulla un Disallow per sotto-percorsi specifici. Il file e accessibile pubblicamente, quindi non usarlo mai per nascondere contenuto sensibile.

Per i negozi ecommerce, robots.txt svolge un ruolo critico nella gestione del budget di crawl. Senza restrizioni, i bot tenteranno di scansionare ogni URL scopribile sul tuo sito, incluse pagine carrello, flussi di pagamento, pagine account, risultati di ricerca interna e migliaia di URL di navigazione a faccette. Queste pagine sprecano budget di crawl e possono creare problemi di contenuto duplicato se vengono indicizzate.

Un'idea errata comune e che robots.txt prevenga l'indicizzazione. Non lo fa. Robots.txt previene solo la scansione. Se un'altra pagina contiene un link a un URL bloccato, Google puo comunque indicizzare quell'URL basandosi sul testo ancora e sul contesto circostante.

Ogni negozio ecommerce dovrebbe testare il proprio file robots.txt usando lo strumento di test robots.txt di Google Search Console prima di implementare modifiche. Un singolo carattere jolly mal posizionato o una regola Disallow troppo ampia puo accidentalmente bloccare l'intero catalogo prodotti dalla scansione.

Robots.txt si trova alla radice del dominio e controlla quali URL i bot possono scansionare
User-agent, Disallow e Allow sono le tre direttive principali
Robots.txt previene la scansione, non l'indicizzazione; le pagine bloccate possono comunque apparire nei risultati
Testa sempre le modifiche al robots.txt in Google Search Console prima dell'implementazione
Tip

Mantieni un backup del tuo robots.txt prima di apportare modifiche. Un file robots.txt rotto che accidentalmente blocca tutto (Disallow: /) puo causare una perdita catastrofica di traffico organico in pochi giorni.

Regole robots.txt essenziali per i negozi online

Ogni robots.txt ecommerce dovrebbe bloccare diverse categorie di URL di basso valore. Le pagine carrello e pagamento (/cart, /checkout, /account) non forniscono valore SEO e contengono contenuto specifico dell'utente. Le pagine di risultati di ricerca interna (/search?q=) generano migliaia di pagine a contenuto sottile che duplicano i tuoi elenchi di categorie e possono portare a cannibalizzazione delle keyword.

I parametri di navigazione a faccette rappresentano la maggiore fonte di spreco di crawl nella maggior parte dei negozi. Regole come Disallow: /*?color=, Disallow: /*?size=, Disallow: /*?brand= e Disallow: /*?sort= impediscono ai bot di scansionare l'esplosione combinatoria degli URL dei filtri. Sii strategico su quali parametri bloccare. Se il tuo negozio ha pagine SEO ottimizzate per marchi specifici, non bloccare il parametro marca globalmente.

I parametri di ordinamento dovrebbero sempre essere bloccati. URL come /categoria?sort=prezzo-asc e /categoria?sort=piu-recenti mostrano gli stessi prodotti in ordine diverso e aggiungono zero contenuto unico. Similmente, i parametri di paginazione oltre una profondita ragionevole possono essere limitati.

Includi sempre una direttiva Sitemap alla fine del tuo robots.txt che punta alla tua sitemap XML. Questo aiuta i motori di ricerca a scoprire la tua sitemap. Il formato e semplice: Sitemap: https://www.example.com/sitemap.xml.

Bloccare pagine carrello, pagamento e account dalla scansione
Bloccare URL di ricerca interna per prevenire indicizzazione di contenuto sottile
Bloccare parametri di navigazione a faccette selettivamente, preservando pagine filtro SEO preziose
Bloccare sempre i parametri di ordinamento poiche creano zero contenuto unico
Includere l'URL della sitemap alla fine del robots.txt per la scoperta
Tip

Usa i pattern jolly con attenzione. Disallow: /*? bloccherebbe tutti gli URL con qualsiasi parametro di query, inclusi quelli potenzialmente preziosi. Blocca invece singolarmente nomi di parametri specifici.

Struttura delle sitemap XML per i cataloghi prodotti

Una sitemap XML e un file strutturato che elenca gli URL che vuoi che i motori di ricerca scoprano e indicizzino. Per i negozi ecommerce con grandi cataloghi, un'architettura sitemap appropriata e fondamentale perche influenza direttamente quali pagine Google priorizza per la scansione e l'indicizzazione.

Usa un file indice sitemap come sitemap principale che referenzia multiple sitemap figlie organizzate per tipo di contenuto. Una struttura sitemap ecommerce tipica include sitemap separate per pagine prodotto (sitemap-products.xml), pagine categoria (sitemap-categories.xml), articoli blog (sitemap-blog.xml) e pagine statiche (sitemap-pages.xml).

Ogni sitemap XML ha un limite di 50.000 URL e 50 MB di dimensione non compressa. Per negozi con piu di 50.000 prodotti, dividi la tua sitemap prodotti in piu file, idealmente organizzati per categoria o reparto. Questo raggruppamento logico facilita il monitoraggio dei tassi di indicizzazione per categoria in Google Search Console.

Ogni URL nella tua sitemap dovrebbe essere la versione canonica di quella pagina. Non includere mai URL che reindirizzano, restituiscono errori 404, hanno tag noindex o sono bloccati da robots.txt. Includere questi URL spreca lo sforzo di scansione di Google e erode la fiducia nell'affidabilita del tuo file sitemap.

Usa un file indice sitemap che referenzia sitemap figlie separate per tipo di contenuto
Rispetta il limite di 50.000 URL e 50 MB per file sitemap
Dividi i grandi cataloghi in file sitemap basati sulle categorie
Includi solo URL canonici e indicizzabili che restituiscono codice di stato 200
Non includere mai URL reindirizzati, con noindex o bloccati da robots.txt nelle sitemap
Tip

Invia la tua sitemap tramite Google Search Console e controlla il rapporto di copertura regolarmente. GSC ti dira esattamente quanti URL dalla tua sitemap sono stati indicizzati, esclusi o hanno avuto errori.

Lastmod, Priority e Changefreq: cosa conta davvero

Le sitemap XML supportano diversi attributi opzionali per ogni URL: lastmod (data dell'ultima modifica), priority (importanza relativa da 0,0 a 1,0) e changefreq (frequenza di cambiamento prevista). In pratica, solo lastmod fornisce valore significativo. Google ha dichiarato pubblicamente che ignora completamente gli attributi priority e changefreq perche i webmaster li impostano incorrettamente cosi spesso che non portano alcun segnale affidabile.

L'attributo lastmod indica ai motori di ricerca quando il contenuto di una pagina e stato significativamente aggiornato l'ultima volta. E un segnale genuino che Google usa per priorizzare il ri-crawl. Quando aggiorni il prezzo, la disponibilita, la descrizione o le immagini di un prodotto, la data lastmod dovrebbe riflettere quel cambiamento.

L'errore critico che molti negozi commettono e impostare lastmod alla data corrente per tutte le pagine ogni volta che la sitemap si rigenera. Se la tua sitemap si ricostruisce ogni notte e marca ogni URL con la data odierna, Google impara rapidamente che le tue date lastmod sono insignificanti. Abbiamo verificato negozi dove la sola correzione delle date lastmod inaccurate ha portato a un'indicizzazione piu veloce del 30% degli aggiornamenti prodotto.

Per l'ecommerce nello specifico, collega lastmod ai cambiamenti reali dei dati nel tuo sistema di gestione delle informazioni prodotto. Quando cambiano i livelli di inventario, quando si aggiornano i prezzi, quando vengono pubblicate nuove recensioni, aggiorna la data lastmod per quegli URL prodotto specifici.

Lastmod e l'unico attributo sitemap che Google usa realmente come segnale di crawl
Google ignora pubblicamente i valori priority e changefreq impostati dai webmaster
Impostare tutti i lastmod alla data corrente distrugge il segnale per Google
Collega le date lastmod a cambiamenti reali di contenuto: aggiornamenti prezzo, nuove recensioni, modifiche descrizione
Tip

Dopo aver corretto la tua implementazione lastmod, monitora il rapporto statistiche di crawl in Google Search Console. Dovresti vedere Google spostare il suo focus di crawl verso pagine aggiornate di recente entro due-quattro settimane.

Gestire i prodotti esauriti nelle sitemap

I prodotti esauriti presentano una sfida sitemap unica per i negozi ecommerce. L'approccio corretto dipende dal fatto che il prodotto sia temporaneamente non disponibile o permanentemente fuori produzione, e dal fatto che la pagina prodotto abbia accumulato backlink e autorita di ricerca preziosi.

Per i prodotti temporaneamente esauriti che prevedi di rifornire, mantieni la pagina prodotto attiva e nella tua sitemap. Aggiorna la pagina per indicare chiaramente che il prodotto e attualmente non disponibile e offri alternative o un'iscrizione per la notifica di rifornimento.

Per i prodotti permanentemente fuori produzione senza valore SEO, rimuovili dalla tua sitemap e eventualmente dal sito. Lasciali restituire naturalmente un 404.

Per i prodotti fuori produzione con autorita di backlink significativa, implementa un redirect 301 al prodotto sostitutivo o alla pagina categoria piu rilevante. Rimuovi l'URL fuori produzione dalla tua sitemap e aggiungi l'URL target del redirect.

Non lasciare mai centinaia di URL di prodotti fuori produzione che restituiscono 404 nella tua sitemap. Questo erode la fiducia di Google nell'affidabilita della tua sitemap e spreca budget di crawl. Esegui una pulizia trimestrale per rimuovere qualsiasi URL non-200 dai tuoi file sitemap.

Temporaneamente esaurito: mantenere nella sitemap con stato di disponibilita aggiornato
Permanentemente fuori produzione senza autorita: rimuovere dalla sitemap, lasciare restituire 404
Fuori produzione con backlink preziosi: redirect 301 alla pagina rilevante piu vicina
Non lasciare mai URL 404 nella sitemap; eseguire pulizie trimestrali
Aggiornare lo stato di disponibilita nei dati strutturati per i prodotti esauriti
Tip

Crea un processo automatizzato che rimuova gli URL prodotto dalla tua sitemap quando restituiscono codici di stato non-200 per piu di sette giorni consecutivi.

Coordinare robots.txt e sitemap per il massimo impatto

Robots.txt e sitemap XML devono lavorare insieme come un sistema coordinato. Il tuo robots.txt dice ai motori di ricerca cosa non scansionare, mentre la tua sitemap dice loro cosa priorizzare. Segnali contrastanti tra questi due file creano confusione e sforzo sprecato.

Il fallimento di coordinazione piu comune e includere nella tua sitemap URL bloccati da robots.txt. Se il tuo robots.txt contiene Disallow: /search e la tua sitemap include URL come /search?q=termine-popolare, stai inviando segnali contraddittori. Pulisci la tua sitemap per garantire zero sovrapposizione con le regole Disallow del robots.txt.

Un secondo problema di coordinazione riguarda gli URL canonici. La tua sitemap dovrebbe contenere solo la versione canonica di ogni URL. Se un prodotto e accessibile sia a /products/scarpe che a /categoria/calzature?product=scarpe, solo l'URL canonico dovrebbe apparire nella sitemap.

Per i grandi siti ecommerce, crea una strategia di crawl a livelli. Usa robots.txt per bloccare pattern di URL che non dovrebbero mai essere scansionati. Usa le sitemap per dichiarare proattivamente quali URL sono piu importanti. Usa i link interni per rafforzare la priorita di crawl per le tue pagine prodotto e categoria di maggior valore.

Infine, monitora entrambi i file continuamente. Imposta avvisi per modifiche al tuo robots.txt e programma una validazione settimanale della sitemap. Un deployment che modifica inavvertitamente il robots.txt o rompe la generazione della sitemap puo richiedere settimane per il recupero.

Non includere mai nella sitemap URL bloccati da robots.txt
Includere solo versioni canoniche degli URL nella sitemap
Usa robots.txt per bloccare, sitemap per priorizzare e link interni per rafforzare
Monitora entrambi i file continuamente; gli aggiornamenti della piattaforma possono modificare silenziosamente robots.txt
Programma validazione settimanale della sitemap per individuare URL appena rotti
Tip

Dopo ogni aggiornamento della piattaforma o cambio tema, verifica immediatamente il tuo robots.txt e rigenera la tua sitemap. Incrocia i due file per assicurarti che nessun URL della sitemap sia bloccato e che nessuna pagina critica manchi dalla sitemap.

Lavora con esperti SEO che capiscono l’e-commerce

La prima agenzia SEO al mondo fondata dall’e-commerce

Robots.txt e Sitemap XML - EcomSEO Academy | EcomSEO