SEO Tecnico

12 min de lectura

Robots.txt y Sitemaps XML

Tu archivo robots.txt y los sitemaps XML son dos de los archivos de SEO tecnico mas fundamentales de tu tienda de ecommerce. Juntos, controlan lo que los motores de busqueda pueden rastrear y proporcionan un mapa de las paginas que deseas indexar. Configurarlos incorrectamente puede ocultar tus mejores productos de Google o inundar el indice con paginas de filtros de bajo valor que canibalizan tus rankings.

Fundamentos de robots.txt para ecommerce

El archivo robots.txt se encuentra en la raiz de tu dominio (example.com/robots.txt) y proporciona directivas de rastreo a los bots de los motores de busqueda. Utiliza una sintaxis simple: User-agent especifica a que bot se aplican las reglas, Disallow bloquea rutas de URL especificas del rastreo, y Allow anula un Disallow para sub-rutas especificas. El archivo es accesible publicamente, asi que nunca lo uses para ocultar contenido sensible.

Para tiendas de ecommerce, robots.txt cumple un rol critico en la gestion del presupuesto de rastreo. Sin restricciones, los bots intentaran rastrear cada URL descubrible en tu sitio, incluyendo paginas del carrito, flujos de pago, paginas de cuenta, resultados de busqueda interna y miles de URLs de navegacion facetada. Estas paginas desperdician presupuesto de rastreo y pueden crear problemas de contenido duplicado si se indexan.

Una idea erronea comun es que robots.txt previene la indexacion. No lo hace. Robots.txt solo previene el rastreo. Si otra pagina enlaza a una URL bloqueada, Google puede aun indexar esa URL basandose en el texto ancla y el contexto circundante, mostrandola en resultados de busqueda con el mensaje "No hay informacion disponible para esta pagina."

Cada tienda de ecommerce debe probar su archivo robots.txt usando la herramienta de prueba de robots.txt en Google Search Console antes de implementar cambios. Un unico comodin mal ubicado o una regla Disallow demasiado amplia puede bloquear accidentalmente todo tu catalogo de productos del rastreo.

Robots.txt se encuentra en la raiz de tu dominio y controla que URLs pueden rastrear los bots
User-agent, Disallow y Allow son las tres directivas principales
Robots.txt previene el rastreo, no la indexacion; las paginas bloqueadas pueden aparecer en resultados
Siempre prueba cambios en robots.txt en Google Search Console antes de implementar en produccion
Tip

Mantiene una copia de seguridad de tu robots.txt antes de hacer cambios. Un archivo robots.txt roto que accidentalmente bloquea todo (Disallow: /) puede causar perdida catastrofica de trafico organico en dias.

Reglas esenciales de robots.txt para tiendas online

Cada robots.txt de ecommerce debe bloquear varias categorias de URLs de bajo valor. Las paginas de carrito y pago (/cart, /checkout, /account) no proporcionan valor SEO y contienen contenido especifico del usuario. Las paginas de resultados de busqueda interna (/search?q=) generan miles de paginas de contenido delgado que duplican tus listados de categorias y pueden llevar a canibalizacion de palabras clave.

Los parametros de navegacion facetada representan la mayor fuente de desperdicio de rastreo en la mayoria de las tiendas. Reglas como Disallow: /*?color=, Disallow: /*?size=, Disallow: /*?brand= y Disallow: /*?sort= previenen que los bots rastreen la explosion combinatoria de URLs de filtros. Se estrategico sobre que parametros bloquear. Si tu tienda tiene paginas SEO optimizadas para marcas especificas, no bloquees el parametro de marca globalmente.

Los parametros de ordenacion siempre deben bloquearse. URLs como /categoria?sort=precio-asc y /categoria?sort=mas-recientes muestran los mismos productos en diferente orden y agregan cero contenido unico. De manera similar, los parametros de paginacion mas alla de una profundidad razonable pueden restringirse.

Siempre incluye una directiva Sitemap al final de tu robots.txt apuntando a tu sitemap XML. Esto ayuda a los motores de busqueda a descubrir tu sitemap. El formato es simple: Sitemap: https://www.example.com/sitemap.xml.

Bloquear paginas de carrito, pago y cuenta del rastreo
Bloquear URLs de busqueda interna para prevenir indexacion de contenido delgado
Bloquear parametros de navegacion facetada selectivamente, preservando paginas de filtro SEO valiosas
Siempre bloquear parametros de ordenacion ya que crean cero contenido unico
Incluir la URL de tu sitemap al final de robots.txt para descubrimiento
Tip

Usa patrones de comodines con cuidado. Disallow: /*? bloquearia todas las URLs con cualquier parametro de consulta, incluyendo potencialmente valiosos. En su lugar, bloquea nombres de parametros especificos individualmente.

Estructura de sitemaps XML para catalogos de productos

Un sitemap XML es un archivo estructurado que lista las URLs que quieres que los motores de busqueda descubran e indexen. Para tiendas de ecommerce con grandes catalogos, la arquitectura correcta del sitemap es critica porque influye directamente en que paginas Google prioriza para rastreo e indexacion.

Usa un archivo indice de sitemaps como sitemap principal que referencia multiples sitemaps hijos organizados por tipo de contenido. Una estructura tipica incluye sitemaps separados para paginas de productos (sitemap-products.xml), paginas de categorias (sitemap-categories.xml), publicaciones de blog (sitemap-blog.xml) y paginas estaticas (sitemap-pages.xml).

Cada sitemap XML tiene un limite de 50,000 URLs y 50 MB de tamano sin comprimir. Para tiendas con mas de 50,000 productos, divide tu sitemap de productos en multiples archivos, idealmente organizados por categoria o departamento. Este agrupamiento logico facilita el seguimiento de tasas de indexacion por categoria en Google Search Console.

Cada URL en tu sitemap debe ser la version canonical de esa pagina. Nunca incluyas URLs que redirigen, devuelven errores 404, tienen etiquetas noindex o estan bloqueadas por robots.txt. Incluir estas URLs desperdicia el esfuerzo de rastreo de Google y erosiona la confianza en la precision de tu archivo sitemap.

Usa un archivo indice de sitemaps que referencie sitemaps hijos separados por tipo de contenido
Respeta el limite de 50,000 URLs y 50 MB por archivo sitemap
Divide grandes catalogos en archivos sitemap basados en categorias
Solo incluye URLs canonicas e indexables que devuelvan codigo de estado 200
Nunca incluyas URLs redirigidas, con noindex o bloqueadas por robots.txt en sitemaps
Tip

Envía tu sitemap a traves de Google Search Console y revisa el informe de cobertura regularmente. GSC te dira exactamente cuantas URLs de tu sitemap fueron indexadas, excluidas o tuvieron errores.

Lastmod, Priority y Changefreq: lo que realmente importa

Los sitemaps XML soportan varios atributos opcionales para cada URL: lastmod (fecha de ultima modificacion), priority (importancia relativa de 0.0 a 1.0) y changefreq (frecuencia de cambio esperada). En la practica, solo lastmod proporciona valor significativo. Google ha declarado publicamente que ignora completamente los atributos priority y changefreq porque los webmasters los configuran incorrectamente con tanta frecuencia que no llevan senal confiable.

El atributo lastmod indica a los motores de busqueda cuando el contenido de una pagina fue significativamente actualizado por ultima vez. Es una senal genuina que Google usa para priorizar el re-rastreo. Cuando actualizas el precio, disponibilidad, descripcion o imagenes de un producto, la fecha lastmod debe reflejar ese cambio.

El error critico que muchas tiendas cometen es establecer lastmod a la fecha actual para todas las paginas cada vez que el sitemap se regenera. Si tu sitemap se reconstruye cada noche y marca cada URL con la fecha de hoy, Google aprende rapidamente que tus fechas lastmod son insignificantes. Hemos auditado tiendas donde solo corregir fechas lastmod inexactas resulto en indexacion 30% mas rapida de actualizaciones de productos.

Para ecommerce especificamente, vincula lastmod a cambios reales de datos en tu sistema de gestion de informacion de productos. Cuando cambian niveles de inventario, cuando se actualizan precios, cuando se publican nuevas resenas, actualiza la fecha lastmod para esas URLs de producto especificas.

Lastmod es el unico atributo de sitemap que Google realmente usa como senal de rastreo
Google ignora publicamente los valores de priority y changefreq establecidos por webmasters
Establecer todos los lastmod a la fecha actual destruye la senal para Google
Vincula fechas lastmod a cambios reales de contenido: actualizaciones de precio, nuevas resenas, ediciones de descripcion
Tip

Despues de corregir tu implementacion de lastmod, monitorea el informe de estadisticas de rastreo en Google Search Console. Deberias ver a Google redirigir su foco de rastreo hacia paginas recientemente actualizadas en dos a cuatro semanas.

Gestionar productos agotados en sitemaps

Los productos agotados presentan un desafio unico de sitemaps para tiendas de ecommerce. El enfoque correcto depende de si el producto esta temporalmente no disponible o permanentemente descontinuado, y si la pagina del producto ha acumulado backlinks y autoridad de busqueda valiosos.

Para productos temporalmente agotados que esperas reabastecer, mantiene la pagina del producto activa y en tu sitemap. Actualiza la pagina para indicar claramente que el producto esta actualmente no disponible y ofrece alternativas o registro de notificacion de reabastecimiento.

Para productos permanentemente descontinuados sin valor SEO, retiralos de tu sitemap y eventualmente del sitio. Dejalos devolver 404 naturalmente.

Para productos descontinuados con autoridad de backlinks significativa, implementa una redireccion 301 al producto de reemplazo o pagina de categoria mas relevante. Retira la URL descontinuada de tu sitemap y agrega la URL destino de redireccion.

Nunca dejes cientos de URLs de productos descontinuados que devuelven 404 en tu sitemap. Esto erosiona la confianza de Google en la precision de tu sitemap y desperdicia presupuesto de rastreo. Ejecuta una limpieza trimestral para eliminar cualquier URL no-200 de tus archivos de sitemap.

Temporalmente agotado: mantener en sitemap con estado de disponibilidad actualizado
Permanentemente descontinuado sin autoridad: retirar del sitemap, dejar devolver 404
Descontinuado con backlinks valiosos: redireccion 301 a la pagina relevante mas cercana
Nunca dejar URLs 404 en tu sitemap; ejecutar limpiezas trimestrales
Actualizar estado de disponibilidad en datos estructurados para productos agotados
Tip

Crea un proceso automatizado que retire URLs de productos de tu sitemap cuando devuelvan codigos de estado no-200 durante mas de siete dias consecutivos.

Coordinar robots.txt y sitemaps para maximo impacto

Robots.txt y sitemaps XML deben trabajar juntos como un sistema coordinado. Tu robots.txt dice a los motores de busqueda que no rastrear, mientras tu sitemap les dice que priorizar. Senales contradictorias entre estos dos archivos crean confusion y esfuerzo desperdiciado.

La falla de coordinacion mas comun es incluir URLs en tu sitemap que estan bloqueadas por robots.txt. Si tu robots.txt contiene Disallow: /search y tu sitemap incluye URLs como /search?q=termino-popular, estas enviando senales contradictorias. Limpia tu sitemap para asegurar cero solapamiento con reglas Disallow de robots.txt.

Un segundo problema de coordinacion involucra URLs canonicas. Tu sitemap debe contener solo la version canonical de cada URL. Si un producto es accesible en /products/zapatos y en /categoria/calzado?product=zapatos, solo la URL canonical debe aparecer en el sitemap.

Para grandes sitios de ecommerce, crea una estrategia de rastreo escalonada. Usa robots.txt para bloquear patrones de URL que nunca deben rastrearse. Usa sitemaps para declarar proactivamente que URLs son mas importantes. Usa enlaces internos para reforzar la prioridad de rastreo para tus paginas de productos y categorias de mayor valor.

Finalmente, monitorea ambos archivos continuamente. Configura alertas para cambios en tu robots.txt y programa validacion semanal del sitemap. Un despliegue que modifique inadvertidamente robots.txt o rompa la generacion del sitemap puede tomar semanas en recuperarse.

Nunca incluyas URLs en tu sitemap que esten bloqueadas por robots.txt
Solo incluye versiones canonicas de URLs en tu sitemap
Usa robots.txt para bloquear, sitemaps para priorizar y enlaces internos para reforzar
Monitorea ambos archivos continuamente; actualizaciones de plataforma pueden modificar robots.txt silenciosamente
Programa validacion semanal del sitemap para detectar URLs recientemente rotas
Tip

Despues de cada actualizacion de plataforma o cambio de tema, verifica inmediatamente tu robots.txt y regenera tu sitemap. Cruza ambos archivos para asegurar que ninguna URL del sitemap este bloqueada y que ninguna pagina critica falte en el sitemap.

Trabaja con expertos SEO que entienden el e-commerce

La primera agencia SEO del mundo fundada por e-commerce

Robots.txt y Sitemaps XML - EcomSEO Academy | EcomSEO