SEO Técnico

12 min de lectura

Robots.txt y Sitemaps XML

Tu archivo robots.txt y los sitemaps XML son dos de los archivos de [SEO técnico](/blog/technical-seo-for-ecommerce) más fundamentales de tu tienda de ecommerce. Juntos, controlan lo que los motores de busqueda pueden rastrear y proporcionan un mapa de las páginas que deseas indexar. Configurarlos incorrectamente puede ocultar tus mejores productos de Google o inundar el indice con páginas de filtros de bajo valor que canibalizan tus rankings.

PorFabian van Til— SEO Lead, EcomSEO
·
Última revisión:

Fundamentos de robots.txt para ecommerce

El archivo robots.txt se encuentra en la raiz de tu dominio (example.com/robots.txt) y proporciona directivas de rastreo a los bots de los motores de busqueda. Utiliza una sintaxis simple: User-agent especifica a que bot se aplican las reglas, Disallow bloquea rutas de URL especificas del rastreo, y Allow anula un Disallow para sub-rutas especificas. El archivo es accesible publicamente, así que nunca lo uses para ocultar contenido sensible.

Para tiendas de ecommerce, robots.txt cumple un rol critico en la gestion del presupuesto de rastreo. Sin restricciones, los bots intentaran rastrear cada URL descubrible en tu sitio, incluyendo páginas del carrito, flujos de pago, páginas de cuenta, resultados de busqueda interna y miles de URLs de navegación facetada. Estas páginas desperdician presupuesto de rastreo y pueden crear problemas de contenido duplicado si se indexan.

Una idea erronea comun es que robots.txt previene la indexación. No lo hace. Robots.txt solo previene el rastreo. Si otra página enlaza a una URL bloqueada, Google puede aun indexar esa URL basandose en el texto ancla y el contexto circundante, mostrandola en resultados de busqueda con el mensaje "No hay información disponible para esta página."

Cada tienda de ecommerce debe probar su archivo robots.txt usando la herramienta de prueba de robots.txt en Google Search Console antes de implementar cambios. Un unico comodin mal ubicado o una regla Disallow demasiado amplia puede bloquear accidentalmente todo tu catálogo de productos del rastreo.

Robots.txt se encuentra en la raiz de tu dominio y controla que URLs pueden rastrear los bots
User-agent, Disallow y Allow son las tres directivas principales
Robots.txt previene el rastreo, no la indexación; las páginas bloqueadas pueden aparecer en resultados
Siempre prueba cambios en robots.txt en Google Search Console antes de implementar en producción
Tip

Mantiene una copia de seguridad de tu robots.txt antes de hacer cambios. Un archivo robots.txt roto que accidentalmente bloquea todo (Disallow: /) puede causar pérdida catastrofica de tráfico organico en dias.

Reglas esenciales de robots.txt para tiendas online

Cada robots.txt de ecommerce debe bloquear varias categorías de URLs de bajo valor. Las páginas de carrito y pago (/cart, /checkout, /account) no proporcionan valor SEO y contienen contenido especifico del usuario. Las páginas de resultados de busqueda interna (/search?q=) generan miles de páginas de contenido delgado que duplican tus listados de categorías y pueden llevar a canibalización de palabras clave.

Los parametros de navegación facetada representan la mayor fuente de desperdicio de rastreo en la mayoria de las tiendas. Reglas como Disallow: /*?color=, Disallow: /*?size=, Disallow: /*?brand= y Disallow: /*?sort= previenen que los bots rastreen la explosion combinatoria de URLs de filtros. Se estrategico sobre que parametros bloquear. Si tu tienda tiene páginas SEO optimizadas para marcas especificas, no bloquees el parametro de marca globalmente.

Los parametros de ordenacion siempre deben bloquearse. URLs como /categoría?sort=precio-asc y /categoría?sort=mas-recientes muestran los mismos productos en diferente orden y agregan cero contenido unico. De manera similar, los parametros de paginacion más alla de una profundidad razonable pueden restringirse.

Siempre incluye una directiva Sitemap al final de tu robots.txt apuntando a tu sitemap XML. Esto ayuda a los motores de busqueda a descubrir tu sitemap. El formato es simple: Sitemap: https://www.example.com/sitemap.xml.

Null-Ueberschneidungs-Regel

Nunca incluyas URL en tu mapa del sitio que estén bloqueadas por robots.txt. Esta contradicción desperdicia el esfuerzo de Google y erosiona la confianza en ambos archivos. Referencia cruzada después de cada actualización de la plataforma.

Diagrama que muestra robots.txt bloqueando URL de bajo valor a la izquierda, mientras que los mapas de sitio XML priorizan URL de productos, categorías y blogs valiosos a la derecha.
Los mapas de sitio Robots.txt y XML deben funcionar como un sistema coordinado: bloquear lo que no se debe rastrear, priorizar lo que se debe rastrear.
Bloquear páginas de carrito, pago y cuenta del rastreo
Bloquear URLs de busqueda interna para prevenir indexación de contenido delgado
Bloquear parametros de navegación facetada selectivamente, preservando páginas de filtro SEO valiosas
Siempre bloquear parametros de ordenacion ya que crean cero contenido unico
Incluir la URL de tu sitemap al final de robots.txt para descubrimiento
Tip

Usa patrones de comodines con cuidado. Disallow: /*? bloquearia todas las URLs con cualquier parametro de consulta, incluyendo potencialmente valiosos. En su lugar, bloquea nombres de parametros especificos individualmente.

Estructura de sitemaps XML para catálogos de productos

Un sitemap XML es un archivo estructurado que lista las URLs que quieres que los motores de busqueda descubran e indexen. Para tiendas de ecommerce con grandes catálogos, la arquitectura correcta del sitemap es critica porque influye directamente en que páginas Google prioriza para rastreo e indexación.

Usa un archivo indice de sitemaps como sitemap principal que referencia multiples sitemaps hijos organizados por tipo de contenido. Una estructura tipica incluye sitemaps separados para páginas de productos (sitemap-products.xml), páginas de categorías (sitemap-categories.xml), publicaciones de blog (sitemap-blog.xml) y páginas estaticas (sitemap-pages.xml).

Cada sitemap XML tiene un límite de 50,000 URLs y 50 MB de tamano sin comprimir. Para tiendas con más de 50,000 productos, divide tu sitemap de productos en multiples archivos, idealmente organizados por categoría o departamento. Este agrupamiento lógico facilita el seguimiento de tasas de indexación por categoría en Google Search Console.

Cada URL en tu sitemap debe ser la versión canonical de esa página. Nunca incluyas URLs que redirigen, devuelven errores 404, tienen etiquetas noindex o estan bloqueadas por robots.txt. Incluir estas URLs desperdicia el esfuerzo de rastreo de Google y erosiona la confianza en la precision de tu archivo sitemap.

Usa un archivo indice de sitemaps que referencie sitemaps hijos separados por tipo de contenido
Respeta el límite de 50,000 URLs y 50 MB por archivo sitemap
Divide grandes catálogos en archivos sitemap basados en categorías
Solo incluye URLs canonicas e indexables que devuelvan codigo de estado 200
Nunca incluyas URLs redirigidas, con noindex o bloqueadas por robots.txt en sitemaps
Tip

Envía tu sitemap a traves de Google Search Console y revisa el informe de cobertura regularmente. GSC te dira exactamente cuantas URLs de tu sitemap fueron indexadas, excluidas o tuvieron errores.

Lastmod, Priority y Changefreq: lo que realmente importa

Los sitemaps XML soportan varios atributos opcionales para cada URL: lastmod (fecha de última modificacion), priority (importancia relativa de 0.0 a 1.0) y changefreq (frecuencia de cambio esperada). En la practica, solo lastmod proporciona valor significativo. Google ha declarado publicamente que ignora completamente los atributos priority y changefreq porque los webmasters los configuran incorrectamente con tanta frecuencia que no llevan senal confiable.

El atributo lastmod indica a los motores de busqueda cuando el contenido de una página fue significativamente actualizado por última vez. Es una senal genuina que Google usa para priorizar el re-rastreo. Cuando actualizas el precio, disponibilidad, descripcion o imagenes de un producto, la fecha lastmod debe reflejar ese cambio.

El error critico que muchas tiendas cometen es establecer lastmod a la fecha actual para todas las páginas cada vez que el sitemap se regenera. Si tu sitemap se reconstruye cada noche y marca cada URL con la fecha de hoy, Google aprende rápidamente que tus fechas lastmod son insignificantes. Hemos auditado tiendas donde solo corregir fechas lastmod inexactas resulto en indexación 30% más rápida de actualizaciones de productos.

Para ecommerce especificamente, vincula lastmod a cambios reales de datos en tu sistema de gestion de información de productos. Cuando cambian niveles de inventario, cuando se actualizan precios, cuando se publican nuevas resenas, actualiza la fecha lastmod para esas URLs de producto especificas.

Lastmod es el unico atributo de sitemap que Google realmente usa como senal de rastreo
Google ignora publicamente los valores de priority y changefreq establecidos por webmasters
Establecer todos los lastmod a la fecha actual destruye la senal para Google
Vincula fechas lastmod a cambios reales de contenido: actualizaciones de precio, nuevas resenas, ediciones de descripcion
Tip

Despues de corregir tu implementación de lastmod, monitorea el informe de estadisticas de rastreo en Google Search Console. Deberias ver a Google redirigir su foco de rastreo hacia páginas recientemente actualizadas en dos a cuatro semanas.

Gestionar productos agotados en sitemaps

Los productos agotados presentan un desafio unico de sitemaps para tiendas de ecommerce. El enfoque correcto depende de si el producto esta temporalmente no disponible o permanentemente descontinuado, y si la página del producto ha acumulado backlinks y autoridad de busqueda valiosos.

Para productos temporalmente agotados que esperas reabastecer, mantiene la página del producto activa y en tu sitemap. Actualiza la página para indicar claramente que el producto esta actualmente no disponible y ofrece alternativas o registro de notificacion de reabastecimiento.

Para productos permanentemente descontinuados sin valor SEO, retiralos de tu sitemap y eventualmente del sitio. Dejalos devolver 404 naturalmente.

Para productos descontinuados con autoridad de backlinks significativa, implementa una redireccion 301 al producto de reemplazo o página de categoría más relevante. Retira la URL descontinuada de tu sitemap y agrega la URL destino de redireccion.

Nunca dejes cientos de URLs de productos descontinuados que devuelven 404 en tu sitemap. Esto erosiona la confianza de Google en la precision de tu sitemap y desperdicia presupuesto de rastreo. Ejecuta una limpieza trimestral para eliminar cualquier URL no-200 de tus archivos de sitemap.

Lastmod-Fehler

Las tiendas que establecen todas las fechas de última modificación en la fecha de hoy en cada reconstrucción del mapa del sitio le enseñan a Google a ignorar la señal por completo. Solucione este problema vinculando lastmod a los cambios reales en el precio, el stock o la descripción.

Comparación de fechas precisas de última modificación vinculadas a cambios de contenido reales versus implementaciones incorrectas donde todas las fechas se establecen en hoy
Las fechas precisas de la última modificación vinculadas a cambios reales dan como resultado una indexación un 30 % más rápida. Establecer todas las fechas en hoy destruye la señal por completo.
Temporalmente agotado: mantener en sitemap con estado de disponibilidad actualizado
Permanentemente descontinuado sin autoridad: retirar del sitemap, dejar devolver 404
Descontinuado con backlinks valiosos: redireccion 301 a la página relevante más cercana
Nunca dejar URLs 404 en tu sitemap; ejecutar limpiezas trimestrales
Actualizar estado de disponibilidad en datos estructurados para productos agotados
Tip

Crea un proceso automatizado que retire URLs de productos de tu sitemap cuando devuelvan codigos de estado no-200 durante más de siete dias consecutivos.

Coordinar robots.txt y sitemaps para maximo impacto

Robots.txt y sitemaps XML deben trabajar juntos como un sistema coordinado. Tu robots.txt dice a los motores de busqueda que no rastrear, mientras tu sitemap les dice que priorizar. Senales contradictorias entre estos dos archivos crean confusion y esfuerzo desperdiciado.

La falla de coordinacion más comun es incluir URLs en tu sitemap que estan bloqueadas por robots.txt. Si tu robots.txt contiene Disallow: /search y tu sitemap incluye URLs como /search?q=termino-popular, estas enviando senales contradictorias. Limpia tu sitemap para asegurar cero solapamiento con reglas Disallow de robots.txt.

Un segundo problema de coordinacion involucra URLs canonicas. Tu sitemap debe contener solo la versión canonical de cada URL. Si un producto es accesible en /products/zapatos y en /categoría/calzado?product=zapatos, solo la URL canonical debe aparecer en el sitemap.

Para grandes sitios de ecommerce, crea una estrategia de rastreo escalonada. Usa robots.txt para bloquear patrones de URL que nunca deben rastrearse. Usa sitemaps para declarar proactivamente que URLs son más importantes. Usa enlaces internos para reforzar la prioridad de rastreo para tus páginas de productos y categorías de mayor valor.

Finalmente, monitorea ambos archivos continuamente. Configura alertas para cambios en tu robots.txt y programa validación semanal del sitemap. Un despliegue que modifique inadvertidamente robots.txt o rompa la generacion del sitemap puede tomar semanas en recuperarse.

Nunca incluyas URLs en tu sitemap que esten bloqueadas por robots.txt
Solo incluye versiones canonicas de URLs en tu sitemap
Usa robots.txt para bloquear, sitemaps para priorizar y enlaces internos para reforzar
Monitorea ambos archivos continuamente; actualizaciones de plataforma pueden modificar robots.txt silenciosamente
Programa validación semanal del sitemap para detectar URLs recientemente rotas
Tip

Despues de cada actualizacion de plataforma o cambio de tema, verifica inmediatamente tu robots.txt y regenera tu sitemap. Cruza ambos archivos para asegurar que ninguna URL del sitemap este bloqueada y que ninguna página critica falte en el sitemap.

Trabaja con expertos SEO que entienden el e-commerce

La primera agencia SEO del mundo fundada por e-commerce

Robots.txt y Sitemaps XML - EcomSEO Academia | EcomSEO