SEO Tecnico
12 min de lecturaRobots.txt y Sitemaps XML
Tu archivo robots.txt y los sitemaps XML son dos de los archivos de SEO tecnico mas fundamentales de tu tienda de ecommerce. Juntos, controlan lo que los motores de busqueda pueden rastrear y proporcionan un mapa de las paginas que deseas indexar. Configurarlos incorrectamente puede ocultar tus mejores productos de Google o inundar el indice con paginas de filtros de bajo valor que canibalizan tus rankings.
In this guide
- 1. Fundamentos de robots.txt para ecommerce
- 2. Reglas esenciales de robots.txt para tiendas online
- 3. Estructura de sitemaps XML para catalogos de productos
- 4. Lastmod, Priority y Changefreq: lo que realmente importa
- 5. Gestionar productos agotados en sitemaps
- 6. Coordinar robots.txt y sitemaps para maximo impacto
Fundamentos de robots.txt para ecommerce
El archivo robots.txt se encuentra en la raiz de tu dominio (example.com/robots.txt) y proporciona directivas de rastreo a los bots de los motores de busqueda. Utiliza una sintaxis simple: User-agent especifica a que bot se aplican las reglas, Disallow bloquea rutas de URL especificas del rastreo, y Allow anula un Disallow para sub-rutas especificas. El archivo es accesible publicamente, asi que nunca lo uses para ocultar contenido sensible.
Para tiendas de ecommerce, robots.txt cumple un rol critico en la gestion del presupuesto de rastreo. Sin restricciones, los bots intentaran rastrear cada URL descubrible en tu sitio, incluyendo paginas del carrito, flujos de pago, paginas de cuenta, resultados de busqueda interna y miles de URLs de navegacion facetada. Estas paginas desperdician presupuesto de rastreo y pueden crear problemas de contenido duplicado si se indexan.
Una idea erronea comun es que robots.txt previene la indexacion. No lo hace. Robots.txt solo previene el rastreo. Si otra pagina enlaza a una URL bloqueada, Google puede aun indexar esa URL basandose en el texto ancla y el contexto circundante, mostrandola en resultados de busqueda con el mensaje "No hay informacion disponible para esta pagina."
Cada tienda de ecommerce debe probar su archivo robots.txt usando la herramienta de prueba de robots.txt en Google Search Console antes de implementar cambios. Un unico comodin mal ubicado o una regla Disallow demasiado amplia puede bloquear accidentalmente todo tu catalogo de productos del rastreo.
Mantiene una copia de seguridad de tu robots.txt antes de hacer cambios. Un archivo robots.txt roto que accidentalmente bloquea todo (Disallow: /) puede causar perdida catastrofica de trafico organico en dias.
Reglas esenciales de robots.txt para tiendas online
Cada robots.txt de ecommerce debe bloquear varias categorias de URLs de bajo valor. Las paginas de carrito y pago (/cart, /checkout, /account) no proporcionan valor SEO y contienen contenido especifico del usuario. Las paginas de resultados de busqueda interna (/search?q=) generan miles de paginas de contenido delgado que duplican tus listados de categorias y pueden llevar a canibalizacion de palabras clave.
Los parametros de navegacion facetada representan la mayor fuente de desperdicio de rastreo en la mayoria de las tiendas. Reglas como Disallow: /*?color=, Disallow: /*?size=, Disallow: /*?brand= y Disallow: /*?sort= previenen que los bots rastreen la explosion combinatoria de URLs de filtros. Se estrategico sobre que parametros bloquear. Si tu tienda tiene paginas SEO optimizadas para marcas especificas, no bloquees el parametro de marca globalmente.
Los parametros de ordenacion siempre deben bloquearse. URLs como /categoria?sort=precio-asc y /categoria?sort=mas-recientes muestran los mismos productos en diferente orden y agregan cero contenido unico. De manera similar, los parametros de paginacion mas alla de una profundidad razonable pueden restringirse.
Siempre incluye una directiva Sitemap al final de tu robots.txt apuntando a tu sitemap XML. Esto ayuda a los motores de busqueda a descubrir tu sitemap. El formato es simple: Sitemap: https://www.example.com/sitemap.xml.
Usa patrones de comodines con cuidado. Disallow: /*? bloquearia todas las URLs con cualquier parametro de consulta, incluyendo potencialmente valiosos. En su lugar, bloquea nombres de parametros especificos individualmente.
Estructura de sitemaps XML para catalogos de productos
Un sitemap XML es un archivo estructurado que lista las URLs que quieres que los motores de busqueda descubran e indexen. Para tiendas de ecommerce con grandes catalogos, la arquitectura correcta del sitemap es critica porque influye directamente en que paginas Google prioriza para rastreo e indexacion.
Usa un archivo indice de sitemaps como sitemap principal que referencia multiples sitemaps hijos organizados por tipo de contenido. Una estructura tipica incluye sitemaps separados para paginas de productos (sitemap-products.xml), paginas de categorias (sitemap-categories.xml), publicaciones de blog (sitemap-blog.xml) y paginas estaticas (sitemap-pages.xml).
Cada sitemap XML tiene un limite de 50,000 URLs y 50 MB de tamano sin comprimir. Para tiendas con mas de 50,000 productos, divide tu sitemap de productos en multiples archivos, idealmente organizados por categoria o departamento. Este agrupamiento logico facilita el seguimiento de tasas de indexacion por categoria en Google Search Console.
Cada URL en tu sitemap debe ser la version canonical de esa pagina. Nunca incluyas URLs que redirigen, devuelven errores 404, tienen etiquetas noindex o estan bloqueadas por robots.txt. Incluir estas URLs desperdicia el esfuerzo de rastreo de Google y erosiona la confianza en la precision de tu archivo sitemap.
Envía tu sitemap a traves de Google Search Console y revisa el informe de cobertura regularmente. GSC te dira exactamente cuantas URLs de tu sitemap fueron indexadas, excluidas o tuvieron errores.
Lastmod, Priority y Changefreq: lo que realmente importa
Los sitemaps XML soportan varios atributos opcionales para cada URL: lastmod (fecha de ultima modificacion), priority (importancia relativa de 0.0 a 1.0) y changefreq (frecuencia de cambio esperada). En la practica, solo lastmod proporciona valor significativo. Google ha declarado publicamente que ignora completamente los atributos priority y changefreq porque los webmasters los configuran incorrectamente con tanta frecuencia que no llevan senal confiable.
El atributo lastmod indica a los motores de busqueda cuando el contenido de una pagina fue significativamente actualizado por ultima vez. Es una senal genuina que Google usa para priorizar el re-rastreo. Cuando actualizas el precio, disponibilidad, descripcion o imagenes de un producto, la fecha lastmod debe reflejar ese cambio.
El error critico que muchas tiendas cometen es establecer lastmod a la fecha actual para todas las paginas cada vez que el sitemap se regenera. Si tu sitemap se reconstruye cada noche y marca cada URL con la fecha de hoy, Google aprende rapidamente que tus fechas lastmod son insignificantes. Hemos auditado tiendas donde solo corregir fechas lastmod inexactas resulto en indexacion 30% mas rapida de actualizaciones de productos.
Para ecommerce especificamente, vincula lastmod a cambios reales de datos en tu sistema de gestion de informacion de productos. Cuando cambian niveles de inventario, cuando se actualizan precios, cuando se publican nuevas resenas, actualiza la fecha lastmod para esas URLs de producto especificas.
Despues de corregir tu implementacion de lastmod, monitorea el informe de estadisticas de rastreo en Google Search Console. Deberias ver a Google redirigir su foco de rastreo hacia paginas recientemente actualizadas en dos a cuatro semanas.
Gestionar productos agotados en sitemaps
Los productos agotados presentan un desafio unico de sitemaps para tiendas de ecommerce. El enfoque correcto depende de si el producto esta temporalmente no disponible o permanentemente descontinuado, y si la pagina del producto ha acumulado backlinks y autoridad de busqueda valiosos.
Para productos temporalmente agotados que esperas reabastecer, mantiene la pagina del producto activa y en tu sitemap. Actualiza la pagina para indicar claramente que el producto esta actualmente no disponible y ofrece alternativas o registro de notificacion de reabastecimiento.
Para productos permanentemente descontinuados sin valor SEO, retiralos de tu sitemap y eventualmente del sitio. Dejalos devolver 404 naturalmente.
Para productos descontinuados con autoridad de backlinks significativa, implementa una redireccion 301 al producto de reemplazo o pagina de categoria mas relevante. Retira la URL descontinuada de tu sitemap y agrega la URL destino de redireccion.
Nunca dejes cientos de URLs de productos descontinuados que devuelven 404 en tu sitemap. Esto erosiona la confianza de Google en la precision de tu sitemap y desperdicia presupuesto de rastreo. Ejecuta una limpieza trimestral para eliminar cualquier URL no-200 de tus archivos de sitemap.
Crea un proceso automatizado que retire URLs de productos de tu sitemap cuando devuelvan codigos de estado no-200 durante mas de siete dias consecutivos.
Coordinar robots.txt y sitemaps para maximo impacto
Robots.txt y sitemaps XML deben trabajar juntos como un sistema coordinado. Tu robots.txt dice a los motores de busqueda que no rastrear, mientras tu sitemap les dice que priorizar. Senales contradictorias entre estos dos archivos crean confusion y esfuerzo desperdiciado.
La falla de coordinacion mas comun es incluir URLs en tu sitemap que estan bloqueadas por robots.txt. Si tu robots.txt contiene Disallow: /search y tu sitemap incluye URLs como /search?q=termino-popular, estas enviando senales contradictorias. Limpia tu sitemap para asegurar cero solapamiento con reglas Disallow de robots.txt.
Un segundo problema de coordinacion involucra URLs canonicas. Tu sitemap debe contener solo la version canonical de cada URL. Si un producto es accesible en /products/zapatos y en /categoria/calzado?product=zapatos, solo la URL canonical debe aparecer en el sitemap.
Para grandes sitios de ecommerce, crea una estrategia de rastreo escalonada. Usa robots.txt para bloquear patrones de URL que nunca deben rastrearse. Usa sitemaps para declarar proactivamente que URLs son mas importantes. Usa enlaces internos para reforzar la prioridad de rastreo para tus paginas de productos y categorias de mayor valor.
Finalmente, monitorea ambos archivos continuamente. Configura alertas para cambios en tu robots.txt y programa validacion semanal del sitemap. Un despliegue que modifique inadvertidamente robots.txt o rompa la generacion del sitemap puede tomar semanas en recuperarse.
Despues de cada actualizacion de plataforma o cambio de tema, verifica inmediatamente tu robots.txt y regenera tu sitemap. Cruza ambos archivos para asegurar que ninguna URL del sitemap este bloqueada y que ninguna pagina critica falte en el sitemap.
Herramientas y recursos gratuitos
Trabaja con expertos SEO que entienden el e-commerce
La primera agencia SEO del mundo fundada por e-commerce