SEO Tecnico

10 min de lectura

Gestion del presupuesto de rastreo

Google asigna un numero limitado de paginas que rastreara en tu sitio dentro de un periodo de tiempo determinado. Para tiendas con miles de productos, paginas de filtros y URLs con parametros, una mala gestion de este presupuesto de rastreo significa que Google pierde tiempo en paginas sin valor mientras ignora las que realmente generan ingresos.

Que es realmente el presupuesto de rastreo

El presupuesto de rastreo es la combinacion de dos factores: el limite de frecuencia de rastreo (cuantas solicitudes por segundo Googlebot puede hacer sin sobrecargar tu servidor) y la demanda de rastreo (cuanto quiere Google rastrear tu sitio basado en popularidad y frescura). Juntos, determinan el numero total de paginas que Googlebot rastreara en un periodo dado.

Para tiendas pequenas con menos de 5.000 paginas, el presupuesto de rastreo raramente es una preocupacion. Google rastreara tu sitio completo regularmente sin problemas. Pero una vez que tu tienda supera las 10.000 URLs (incluyendo variaciones de parametros, paginas de filtros y listados paginados), el presupuesto de rastreo se convierte en un cuello de botella real.

Una tienda de moda de tamano medio que auditamos tenia 8.000 productos reales pero mas de 340.000 URLs rastreables debido a la navegacion facetada, parametros de color/talla, variaciones de ordenacion y paginacion. Googlebot gastaba el 85 % de su presupuesto de rastreo en estas paginas de parametros sin valor, mientras que el 30 % de las paginas de productos reales no habian sido re-rastreadas en mas de 90 dias.

Limite de frecuencia de rastreo: solicitudes maximas por segundo que tu servidor puede manejar de Googlebot
Demanda de rastreo: interes de Google en tus paginas basado en popularidad y obsolescencia
Tiendas con menos de 5.000 paginas raramente necesitan preocuparse por el presupuesto de rastreo
Tiendas con mas de 10.000 URLs (incluyendo parametros) deben gestionar activamente el presupuesto

Identificar el desperdicio de rastreo en tu tienda

El desperdicio de rastreo ocurre cuando Googlebot pasa tiempo rastreando paginas que no aportan valor SEO. En ecommerce, las mayores fuentes de desperdicio son las URLs de navegacion facetada, paginas de parametros, paginas de resultados de busqueda interna y paginacion excesiva.

La navegacion facetada es la peor infractora. Una pagina de categoria con filtros de marca, color, talla, precio y valoracion puede generar miles de combinaciones de URLs. Cada combinacion (/zapatos?marca=nike&color=negro&talla=42) es una URL rastreable separada que tipicamente muestra los mismos productos en arreglos ligeramente diferentes. Google no necesita rastrear todas estas.

Los parametros de ordenacion desperdician presupuesto de rastreo silenciosamente. URLs como /categoria?orden=precio-bajo, /categoria?orden=precio-alto, /categoria?orden=mas-recientes y /categoria?orden=mas-vendidos muestran todos los mismos productos. Estas paginas no agregan contenido unico pero pueden triplicar o cuadruplicar tu conteo de URLs rastreables.

Los IDs de sesion y parametros de seguimiento agregados a las URLs (/producto?utm_source=email&session=abc123) crean versiones duplicadas rastreables de cada pagina. Si tu plataforma agrega estos parametros y no los maneja con etiquetas canonicas, estas multiplicando tu superficie de rastreo innecesariamente.

Navegacion facetada: combinaciones de filtros que crean miles de URLs rastreables
Parametros de ordenacion: mismos productos en diferente orden, cero contenido unico
Paginas de busqueda interna: URLs /search?q=xyz que Google nunca deberia indexar
Parametros de sesion y seguimiento: URLs duplicadas por etiquetas UTM o IDs de sesion
Paginacion mas alla de la pagina 5-10: paginas paginadas profundas con valor SEO decreciente
Tip

Descarga tus logs del servidor de los ultimos 30 dias y analiza que URLs visito Googlebot con mayor frecuencia. Probablemente encontraras que las paginas de parametros y las URLs de filtros dominan el rastreo, mientras que las paginas de productos reciben muchas menos visitas de las que deberian.

Bloquear URLs de bajo valor del rastreo

La herramienta principal para prevenir el desperdicio de rastreo es el robots.txt. Al no permitir patrones de URL especificos, le dices a Googlebot que no se moleste en rastrear esas paginas. Para ecommerce, esto tipicamente significa bloquear parametros de filtros facetados, ordenes de clasificacion, resultados de busqueda interna y paginas de carrito/pago.

Un robots.txt practico para una tienda ecommerce podria incluir reglas como Disallow: /*?sort=, Disallow: /*?filter=, Disallow: /search y Disallow: /cart. Estas reglas evitan que Googlebot desperdicie presupuesto de rastreo en paginas que nunca deberian aparecer en los resultados de busqueda.

Ten cuidado con el bloqueo del robots.txt. Previene el rastreo, no la indexacion. Si otras paginas enlazan a una URL bloqueada, Google puede indexarla basandose en el texto ancla y el contexto del enlace, incluso sin rastrear la pagina misma. Para paginas que quieres completamente excluidas del indice, combina el bloqueo robots.txt con meta etiquetas noindex o etiquetas canonicas.

Otro enfoque es usar la herramienta de Parametros de URL en Google Search Console para indicar a Google como parametros especificos afectan el contenido de la pagina. Puedes indicar si un parametro como "sort" cambia el contenido, y si Google deberia rastrear todas, algunas o ninguna URL con ese parametro.

Tip

Despues de actualizar tu robots.txt, monitorea el informe de Estadisticas de rastreo en Google Search Console durante dos a cuatro semanas. Deberias ver que el total de paginas rastreadas disminuye mientras la frecuencia de rastreo de tus paginas importantes aumenta.

Monitorear estadisticas de rastreo en Google Search Console

Google Search Console proporciona un informe de Estadisticas de rastreo bajo Configuracion que muestra como Googlebot interactua con tu sitio. Este informe revela el total de solicitudes de rastreo, el tiempo de respuesta promedio, el desglose de solicitudes por tipo de respuesta y el proposito del rastreo (descubrimiento vs. actualizacion).

Presta atencion al desglose de codigos de respuesta. Si un porcentaje significativo de las solicitudes de rastreo devuelven redirecciones 301/302, errores 404 o errores de servidor 5xx, estas desperdiciando presupuesto de rastreo en URLs rotas o redirigidas. Un sitio ecommerce saludable deberia ver el 90 % o mas de las solicitudes de rastreo devolviendo codigos de estado 200.

El desglose por tipo de archivo muestra si Googlebot esta gastando tiempo descargando imagenes, CSS, JavaScript u otros recursos de forma desproporcionada. Si los archivos JavaScript dominan tus solicitudes de rastreo, puede indicar problemas de renderizado que fuerzan a Googlebot a hacer solicitudes adicionales.

Compara tus estadisticas de rastreo mes a mes. Una caida repentina en las solicitudes de rastreo puede indicar problemas de rendimiento del servidor o cambios en el robots.txt que bloquearon demasiado. Un pico repentino podria significar que Google descubrio un nuevo lote de URLs parametrizadas o que un cambio en el sitemap expuso paginas previamente ocultas.

Verificar desglose de codigos de respuesta: apuntar a 90 %+ devolviendo codigo 200
Revisar distribucion por tipo de archivo: descargas excesivas de JS senalan problemas de renderizado
Monitorear division del proposito de rastreo: descubrimiento de nuevas paginas vs. actualizacion
Seguir tendencias mensualmente: caidas o picos repentinos indican cambios de configuracion

Renderizado del lado del servidor y eficiencia de rastreo

Como tu tienda renderiza las paginas impacta directamente la eficiencia del rastreo. Las paginas renderizadas del lado del cliente (CSR) construidas con frameworks JavaScript como React o Vue requieren que Googlebot haga multiples solicitudes: primero para descargar el esqueleto HTML, luego para obtener y ejecutar JavaScript, y finalmente para renderizar el contenido. Este proceso es mas lento y consume mas presupuesto de rastreo por pagina.

El renderizado del lado del servidor (SSR) entrega HTML completamente renderizado en la solicitud inicial, permitiendo a Googlebot entender el contenido de la pagina inmediatamente. Para sitios ecommerce, SSR o generacion de sitios estaticos (SSG) tipicamente resulta en 40 % a 60 % mas paginas rastreadas por sesion de rastreo comparado con equivalentes CSR.

Las tiendas Shopify se renderizan del lado del servidor por defecto, por lo que raramente es una preocupacion para los comerciantes de Shopify. Pero las tiendas construidas sobre arquitecturas headless con React/Next.js o Vue/Nuxt.js necesitan asegurar que su implementacion SSR funcione correctamente. Hemos visto tiendas headless donde una configuracion SSR mal configurada causaba que Googlebot viera paginas de producto vacias, llevando a una desindexacion masiva.

Prueba como Google ve tus paginas usando la herramienta de Inspeccion de URL en GSC. Haz clic en "Ver pagina probada" para ver tanto la respuesta HTML cruda como el HTML renderizado. Si la version renderizada le falta informacion del producto, precios o resenas, tu configuracion de renderizado necesita atencion.

Priorizar lo que se rastrea

Mas alla de bloquear paginas sin valor, puedes dirigir activamente a Googlebot hacia tu contenido mas importante. El enlazado interno es la senal mas fuerte para la prioridad de rastreo. Las paginas con mas enlaces internos apuntando a ellas se rastrean con mayor frecuencia y mas rapidamente despues de las actualizaciones.

Manten tu sitemap XML ajustado y preciso. Incluye solo paginas que genuinamente quieras indexar: paginas de productos, paginas de categorias, publicaciones de blog clave y paginas informativas esenciales. Elimina productos agotados (o redirigelos), paginas noindexadas y URLs de parametros de tu sitemap. Un sitemap con 5.000 URLs importantes supera a uno con 50.000 URLs donde el 90 % es basura.

Actualiza las fechas lastmod de tu sitemap con precision. Cuando actualizas el precio, la descripcion o la disponibilidad de una pagina de producto, la fecha lastmod debe reflejar el cambio. Googlebot usa lastmod como senal para la prioridad de re-rastreo. Hemos visto tiendas que establecen todas las fechas lastmod en el mismo valor (o usan la fecha de hoy para cada pagina), lo que destruye la senal y hace que Google ignore lastmod completamente.

Para cambios sensibles al tiempo como rebajas, bajadas de precio o lanzamientos de nuevos productos, puedes usar la API de Indexacion (para tipos de sitio elegibles) o solicitar indexacion manualmente a traves de la herramienta de Inspeccion de URL de GSC.

Fortalecer el enlazado interno hacia paginas de productos y categorias de alta prioridad
Mantener los sitemaps XML ajustados: solo paginas que quieras indexar
Usar fechas lastmod precisas que reflejen cambios reales de contenido
Solicitar indexacion manualmente para cambios urgentes via Inspeccion de URL de GSC
Tip

Crea una lista de tus 100 paginas de productos y categorias que mas ingresos generan. Asegurate de que estas paginas tengan la mayor cantidad de enlaces internos, aparezcan en tu sitemap y reciban fechas lastmod actualizadas cuando el contenido cambie.

Trabaja con expertos SEO que entienden el e-commerce

La primera agencia SEO del mundo fundada por e-commerce

Gestion del presupuesto de rastreo - EcomSEO Academy | EcomSEO