SEO Tecnico
10 min de lecturaGestion del presupuesto de rastreo
Google asigna un numero limitado de paginas que rastreara en tu sitio dentro de un periodo de tiempo determinado. Para tiendas con miles de productos, paginas de filtros y URLs con parametros, una mala gestion de este presupuesto de rastreo significa que Google pierde tiempo en paginas sin valor mientras ignora las que realmente generan ingresos.
In this guide
Que es realmente el presupuesto de rastreo
El presupuesto de rastreo es la combinacion de dos factores: el limite de frecuencia de rastreo (cuantas solicitudes por segundo Googlebot puede hacer sin sobrecargar tu servidor) y la demanda de rastreo (cuanto quiere Google rastrear tu sitio basado en popularidad y frescura). Juntos, determinan el numero total de paginas que Googlebot rastreara en un periodo dado.
Para tiendas pequenas con menos de 5.000 paginas, el presupuesto de rastreo raramente es una preocupacion. Google rastreara tu sitio completo regularmente sin problemas. Pero una vez que tu tienda supera las 10.000 URLs (incluyendo variaciones de parametros, paginas de filtros y listados paginados), el presupuesto de rastreo se convierte en un cuello de botella real.
Una tienda de moda de tamano medio que auditamos tenia 8.000 productos reales pero mas de 340.000 URLs rastreables debido a la navegacion facetada, parametros de color/talla, variaciones de ordenacion y paginacion. Googlebot gastaba el 85 % de su presupuesto de rastreo en estas paginas de parametros sin valor, mientras que el 30 % de las paginas de productos reales no habian sido re-rastreadas en mas de 90 dias.
Identificar el desperdicio de rastreo en tu tienda
El desperdicio de rastreo ocurre cuando Googlebot pasa tiempo rastreando paginas que no aportan valor SEO. En ecommerce, las mayores fuentes de desperdicio son las URLs de navegacion facetada, paginas de parametros, paginas de resultados de busqueda interna y paginacion excesiva.
La navegacion facetada es la peor infractora. Una pagina de categoria con filtros de marca, color, talla, precio y valoracion puede generar miles de combinaciones de URLs. Cada combinacion (/zapatos?marca=nike&color=negro&talla=42) es una URL rastreable separada que tipicamente muestra los mismos productos en arreglos ligeramente diferentes. Google no necesita rastrear todas estas.
Los parametros de ordenacion desperdician presupuesto de rastreo silenciosamente. URLs como /categoria?orden=precio-bajo, /categoria?orden=precio-alto, /categoria?orden=mas-recientes y /categoria?orden=mas-vendidos muestran todos los mismos productos. Estas paginas no agregan contenido unico pero pueden triplicar o cuadruplicar tu conteo de URLs rastreables.
Los IDs de sesion y parametros de seguimiento agregados a las URLs (/producto?utm_source=email&session=abc123) crean versiones duplicadas rastreables de cada pagina. Si tu plataforma agrega estos parametros y no los maneja con etiquetas canonicas, estas multiplicando tu superficie de rastreo innecesariamente.
Descarga tus logs del servidor de los ultimos 30 dias y analiza que URLs visito Googlebot con mayor frecuencia. Probablemente encontraras que las paginas de parametros y las URLs de filtros dominan el rastreo, mientras que las paginas de productos reciben muchas menos visitas de las que deberian.
Bloquear URLs de bajo valor del rastreo
La herramienta principal para prevenir el desperdicio de rastreo es el robots.txt. Al no permitir patrones de URL especificos, le dices a Googlebot que no se moleste en rastrear esas paginas. Para ecommerce, esto tipicamente significa bloquear parametros de filtros facetados, ordenes de clasificacion, resultados de busqueda interna y paginas de carrito/pago.
Un robots.txt practico para una tienda ecommerce podria incluir reglas como Disallow: /*?sort=, Disallow: /*?filter=, Disallow: /search y Disallow: /cart. Estas reglas evitan que Googlebot desperdicie presupuesto de rastreo en paginas que nunca deberian aparecer en los resultados de busqueda.
Ten cuidado con el bloqueo del robots.txt. Previene el rastreo, no la indexacion. Si otras paginas enlazan a una URL bloqueada, Google puede indexarla basandose en el texto ancla y el contexto del enlace, incluso sin rastrear la pagina misma. Para paginas que quieres completamente excluidas del indice, combina el bloqueo robots.txt con meta etiquetas noindex o etiquetas canonicas.
Otro enfoque es usar la herramienta de Parametros de URL en Google Search Console para indicar a Google como parametros especificos afectan el contenido de la pagina. Puedes indicar si un parametro como "sort" cambia el contenido, y si Google deberia rastrear todas, algunas o ninguna URL con ese parametro.
Despues de actualizar tu robots.txt, monitorea el informe de Estadisticas de rastreo en Google Search Console durante dos a cuatro semanas. Deberias ver que el total de paginas rastreadas disminuye mientras la frecuencia de rastreo de tus paginas importantes aumenta.
Monitorear estadisticas de rastreo en Google Search Console
Google Search Console proporciona un informe de Estadisticas de rastreo bajo Configuracion que muestra como Googlebot interactua con tu sitio. Este informe revela el total de solicitudes de rastreo, el tiempo de respuesta promedio, el desglose de solicitudes por tipo de respuesta y el proposito del rastreo (descubrimiento vs. actualizacion).
Presta atencion al desglose de codigos de respuesta. Si un porcentaje significativo de las solicitudes de rastreo devuelven redirecciones 301/302, errores 404 o errores de servidor 5xx, estas desperdiciando presupuesto de rastreo en URLs rotas o redirigidas. Un sitio ecommerce saludable deberia ver el 90 % o mas de las solicitudes de rastreo devolviendo codigos de estado 200.
El desglose por tipo de archivo muestra si Googlebot esta gastando tiempo descargando imagenes, CSS, JavaScript u otros recursos de forma desproporcionada. Si los archivos JavaScript dominan tus solicitudes de rastreo, puede indicar problemas de renderizado que fuerzan a Googlebot a hacer solicitudes adicionales.
Compara tus estadisticas de rastreo mes a mes. Una caida repentina en las solicitudes de rastreo puede indicar problemas de rendimiento del servidor o cambios en el robots.txt que bloquearon demasiado. Un pico repentino podria significar que Google descubrio un nuevo lote de URLs parametrizadas o que un cambio en el sitemap expuso paginas previamente ocultas.
Renderizado del lado del servidor y eficiencia de rastreo
Como tu tienda renderiza las paginas impacta directamente la eficiencia del rastreo. Las paginas renderizadas del lado del cliente (CSR) construidas con frameworks JavaScript como React o Vue requieren que Googlebot haga multiples solicitudes: primero para descargar el esqueleto HTML, luego para obtener y ejecutar JavaScript, y finalmente para renderizar el contenido. Este proceso es mas lento y consume mas presupuesto de rastreo por pagina.
El renderizado del lado del servidor (SSR) entrega HTML completamente renderizado en la solicitud inicial, permitiendo a Googlebot entender el contenido de la pagina inmediatamente. Para sitios ecommerce, SSR o generacion de sitios estaticos (SSG) tipicamente resulta en 40 % a 60 % mas paginas rastreadas por sesion de rastreo comparado con equivalentes CSR.
Las tiendas Shopify se renderizan del lado del servidor por defecto, por lo que raramente es una preocupacion para los comerciantes de Shopify. Pero las tiendas construidas sobre arquitecturas headless con React/Next.js o Vue/Nuxt.js necesitan asegurar que su implementacion SSR funcione correctamente. Hemos visto tiendas headless donde una configuracion SSR mal configurada causaba que Googlebot viera paginas de producto vacias, llevando a una desindexacion masiva.
Prueba como Google ve tus paginas usando la herramienta de Inspeccion de URL en GSC. Haz clic en "Ver pagina probada" para ver tanto la respuesta HTML cruda como el HTML renderizado. Si la version renderizada le falta informacion del producto, precios o resenas, tu configuracion de renderizado necesita atencion.
Priorizar lo que se rastrea
Mas alla de bloquear paginas sin valor, puedes dirigir activamente a Googlebot hacia tu contenido mas importante. El enlazado interno es la senal mas fuerte para la prioridad de rastreo. Las paginas con mas enlaces internos apuntando a ellas se rastrean con mayor frecuencia y mas rapidamente despues de las actualizaciones.
Manten tu sitemap XML ajustado y preciso. Incluye solo paginas que genuinamente quieras indexar: paginas de productos, paginas de categorias, publicaciones de blog clave y paginas informativas esenciales. Elimina productos agotados (o redirigelos), paginas noindexadas y URLs de parametros de tu sitemap. Un sitemap con 5.000 URLs importantes supera a uno con 50.000 URLs donde el 90 % es basura.
Actualiza las fechas lastmod de tu sitemap con precision. Cuando actualizas el precio, la descripcion o la disponibilidad de una pagina de producto, la fecha lastmod debe reflejar el cambio. Googlebot usa lastmod como senal para la prioridad de re-rastreo. Hemos visto tiendas que establecen todas las fechas lastmod en el mismo valor (o usan la fecha de hoy para cada pagina), lo que destruye la senal y hace que Google ignore lastmod completamente.
Para cambios sensibles al tiempo como rebajas, bajadas de precio o lanzamientos de nuevos productos, puedes usar la API de Indexacion (para tipos de sitio elegibles) o solicitar indexacion manualmente a traves de la herramienta de Inspeccion de URL de GSC.
Crea una lista de tus 100 paginas de productos y categorias que mas ingresos generan. Asegurate de que estas paginas tengan la mayor cantidad de enlaces internos, aparezcan en tu sitemap y reciban fechas lastmod actualizadas cuando el contenido cambie.
Herramientas y recursos gratuitos
Trabaja con expertos SEO que entienden el e-commerce
La primera agencia SEO del mundo fundada por e-commerce