Fundamentos de búsqueda

10 min de lectura

Cómo Google encuentra tiendas online

Antes de que Google pueda posicionar tus productos, necesita descubrirlos. Entender cómo Googlebot navega por los sitios de ecommerce revela por qué algunas tiendas consiguen miles de páginas indexadas mientras otras luchan por qué se noten incluso sus páginas de categoría principales.

PorFabian van Til— SEO Lead, EcomSEO
·
Última revisión:

Cómo Googlebot rastrea sitios de ecommerce

Googlebot es el software que Google usa para obtener páginas web. Funciona siguiendo enlaces de una página a la siguiente, similar a un comprador que navega por tu tienda. Cuando llega a una página, lee el HTML, sigue los enlaces que encuentra y añade las URLs recién descubiertas a su cola de rastreo.

Para sitios de ecommerce, este proceso de rastreo encuentra complicaciones rápidamente. Una página de inicio puede enlazar a 15 páginas de categoría, cada una enlazando a 20 subcategorías, cada una listando 40 productos. Eso ya son 12.000 páginas de producto descubiertas desde un solo camino de rastreo. Pero Googlebot no tiene recursos ilimitados. Google asigna a cada sitio un presupuesto de rastreo basado en la autoridad del sitio y la capacidad del servidor.

Una tienda de tamaño medio con autoridad de dominio moderada podría ver a Googlebot solicitar de 5.000 a 15.000 páginas por día. Si tu tienda tiene 80.000 URLs incluyendo vistas filtradas y paginación, podría tomar semanas para que Googlebot visite cada página una vez. Por eso la eficiencia del rastreo es tan relevante para ecommerce. Cada URL que Googlebot desperdicia en una página filtrada sin valor es una URL que no dedicó a una página de producto que realmente quieres posicionar. Aprende más sobre como continua este proceso en nuestra guia de rastreo e indexación de páginas de producto.

Crawl-Budget-Mathematik

15 categorías x 20 subcategorías x 40 productos = 12.000 páginas de productos de una ruta de rastreo. Agregue vistas y paginación filtradas y una tienda de 50 000 SKU puede generar fácilmente más de 200 000 URL rastreables.

Diagrama que muestra cómo el robot de Google rastrea una tienda de comercio electrónico desde la página de inicio, pasando por categorías hasta páginas de productos.
El robot de Google sigue enlaces desde la página de inicio a categorías y productos. Las páginas más profundas en la jerarquía se rastrean con menos frecuencia.
Googlebot sigue enlaces de página en página para descubrir URLs
Cada sitio recibe un presupuesto de rastreo según autoridad y velocidad del servidor
Las tiendas grandes pueden necesitar semanas para cobertura completa
Las páginas sin valor consumen presupuesto que podría ir a páginas de producto

La cola de rastreo y el sistema de prioridades

Googlebot no rastrea todas las páginas por igual. Mantiene una cola de prioridad que determina qué URLs se rastrean primero y con qué frecuencia se revisitan. Las páginas que cambian frecuentemente, reciben más enlaces internos o tienen mayor autoridad se rastrean más a menudo.

Tu página de inicio puede ser rastreada varias veces al día. Las páginas de categoría de primer nivel pueden rastrearse diariamente o cada pocos días. Las páginas de producto individuales más profundas en la estructura del sitio quizás solo se rastrean cada pocas semanas. Para un producto de temporada recién lanzado, ese retraso puede significar perder semanas de tráfico de búsqueda potencial.

Podemos influir en la prioridad de rastreo mediante enlaces internos. Una página de producto enlazada desde tu página de inicio, una página de categoría y tres publicaciones de blog será rastreada antes y con más frecuencia que una accesible solo a través de dos niveles de navegación por categorías. Por eso el enlazado interno estratégico es una de las tácticas SEO de mayor impacto para tiendas.

Tip

Revisa tus estadísticas de rastreo en Google Search Console en Configuración > Estadísticas de rastreo. Si el tiempo de respuesta promedio supera los 500 ms, la velocidad de tu servidor puede estar limitando cuántas páginas rastrea Googlebot por día.

Renderizado JavaScript y plataformas de ecommerce

Muchas plataformas de ecommerce modernas usan JavaScript para cargar información de productos, precios y reseñas. Los temas de Shopify, las tiendas headless basadas en React y algunas configuraciones de WooCommerce dependen en gran medida del renderizado del lado del cliente. Esto crea un desafío porque Googlebot rastrea en dos fases.

En la primera fase, Googlebot obtiene el HTML en bruto. Si el título del producto, la descripción y el precio se cargan vía JavaScript después del renderizado de la página, esa primera obtención de HTML devuelve una cáscara vacía. Google luego pone la página en cola para una segunda fase de renderizado donde ejecuta JavaScript. Esta cola de renderizado puede añadir días o incluso semanas de retraso antes de que Google vea tu contenido real.

Las tiendas de Shopify que usan el sistema de plantillas Liquid estándar generalmente evitan este problema porque los datos del producto se renderizan del lado del servidor. Pero las tiendas con configuraciones headless usando frameworks como Next.js o Nuxt necesitan implementar renderizado del lado del servidor (SSR) o generación de sitios estáticos (SSG) para garantizar que Googlebot vea el contenido del producto en la primera obtención.

Hemos auditado tiendas donde el 30 % de las páginas de producto no estaban indexadas porque el marcado schema del producto, las reseñas e incluso el título del producto se cargaban vía JavaScript que Googlebot no logró renderizar. Cambiar al renderizado del lado del servidor corrigió la indexación en tres semanas. Nuestra guia de SEO técnico para ecommerce cubre los problemas de renderizado con más detalle.

Praxisfall

Auditamos una tienda donde el 30% de las páginas de productos no estaban indexadas. El título del producto, el marcado del esquema y las reseñas se cargaron mediante JavaScript. Cambiar a renderizado del lado del servidor indexación fija dentro

Diagrama que muestra el proceso de renderizado de dos fases de Google para páginas con mucho JavaScript
La fase 1 recupera HTML sin formato (a menudo vacío para sitios JS). La fase 2 procesa JavaScript, pero puede retrasarse días o semanas.
Googlebot rastrea en dos fases: obtención de HTML y luego renderizado de JavaScript
La cola de renderizado puede retrasar el descubrimiento de contenido días o semanas
Las plantillas Liquid estándar de Shopify renderizan del lado del servidor por defecto
Las configuraciones headless necesitan SSR o SSG para indexación fiable
Prueba tus páginas con la herramienta de inspección de URLs para ver qué renderiza Google

Sitemaps XML para el descubrimiento de productos

Un sitemap XML es un archivo que lista las URLs que quieres que Google conozca. Para sitios de ecommerce, los sitemaps sirven como canal directo para decirle a Google qué páginas existen, cuándo se actualizaron por última vez y con qué frecuencia cambian.

Una estrategia de sitemaps bien estructurada para ecommerce usa múltiples archivos de sitemap. Un sitemap para páginas de producto, otro para páginas de categoría, uno para contenido del blog y uno para páginas estáticas como tu página sobre nosotros y política de envíos. Esta separación te permite monitorear la indexación por tipo de página en Search Console.

Generalmente recomendamos incluir solo páginas canónicas e indexables en tus sitemaps. Las URLs filtradas, las páginas de productos agotados que has configurado como noindex, y las páginas de listado paginadas más allá de la página uno deberían excluirse. Un sitemap que lista 200.000 URLs cuando solo 30.000 son indexables envía una señal confusa a Google sobre la calidad de tu sitio.

La mayoría de las plataformas de ecommerce generan sitemaps automáticamente. Shopify crea un sitemap.xml que incluye productos, colecciones, páginas y publicaciones del blog. WooCommerce con Yoast SEO o RankMath genera sitemaps con más opciones de configuración. Independientemente de la plataforma, revisa tu sitemap mensualmente para asegurar que refleje la estructura actual de tu sitio.

Sitemap-Struktur Beispiel

sitemap-products.xml (30.000 URL) + sitemap-categories.xml (200 URL) + sitemap-blog.xml (150 URL) + sitemap-pages.xml (20 URL). Los archivos separados le permiten realizar un seguimiento de la indexación por tipo de contenido en Search Co

Tip

Envía tus sitemaps en Google Search Console y revisa el informe de cobertura después de dos semanas. Si la proporción de páginas indexadas respecto a las enviadas está por debajo del 70 %, investiga por qué Google está eligiendo no indexar una parte significativa de tus URLs enviadas.

Los enlaces internos como caminos de descubrimiento

Mientras los sitemaps le dicen a Google que las páginas existen, los enlaces internos le muestran cómo se relacionan entre sí y cuáles son más relevantes. Una página de producto con 50 enlaces internos apuntando hacia ella tiene más prioridad de rastreo que una con solo 2.

Las páginas de categoría son la columna vertebral del enlazado interno para ecommerce. Cada página de categoría enlaza a docenas de productos, pasando prioridad de rastreo y señales de posicionamiento a esas páginas de producto. Una navegación de migas de pan bien estructurada añade otra capa de enlaces internos, conectando los productos de vuelta a sus categorías padre y la página de inicio.

Las secciones de venta cruzada y productos relacionados crean enlaces internos laterales entre productos. Cuando una página de producto de zapatillas de running enlaza a cordones, plantillas y calcetines relacionados, esas conexiones ayudan a Googlebot a descubrir más de tu catálogo mientras distribuyen la equidad de enlaces por toda tu tienda.

Las páginas huérfanas son el enemigo del descubrimiento. Una página huérfana no tiene enlaces internos apuntando a ella. Puede existir en tu sitemap, pero si Googlebot no puede alcanzarla siguiendo enlaces desde cualquier otra página, eso señala baja importancia. Encontramos frecuentemente páginas de producto huérfanas en tiendas que han reestructurado sus categorías sin actualizar los enlaces internos. Una solida arquitectura de sitio para ecommerce previene estos problemas de páginas huerfanas.

Las páginas de categoría distribuyen prioridad de rastreo a las páginas de producto debajo
Las migas de pan crean caminos ascendentes de enlaces internos hacia categorías e inicio
Las secciones de productos relacionados construyen enlaces laterales entre productos
Las páginas huérfanas sin enlaces internos son despriorizadas por Google

Problemas de descubrimiento comunes en ecommerce

El problema de descubrimiento más común que vemos es el de tiendas que bloquean a Googlebot de recursos esenciales en su archivo robots.txt. Algunas instalaciones de WooCommerce bloquean el directorio /wp-admin/, lo cual es correcto, pero accidentalmente también bloquean archivos CSS y JavaScript que Googlebot necesita para renderizar las páginas correctamente.

Otro problema frecuente son las trampas de rastreo infinitas por navegación facetada. Una tienda de ropa que permite a los usuarios combinar filtros de talla, color, material, marca y precio puede generar millones de URLs únicas. Sin controles adecuados, Googlebot puede gastar todo su presupuesto de rastreo explorando estas combinaciones de filtros sin alcanzar nunca las páginas de producto profundas.

Las URLs basadas en sesiones también causan problemas. Algunas plataformas de ecommerce añaden IDs de sesión o parámetros de seguimiento a las URLs, creando lo que parece ser miles de páginas duplicadas. Cada visita de Googlebot genera una nueva variante de URL, desperdiciando presupuesto de rastreo en páginas que son todas idénticas en contenido.

La paginación también puede ralentizar el descubrimiento. Si tu página de categoría lista 500 productos en 25 páginas paginadas, Googlebot necesita rastrear la página 1, la página 2, la página 3, y así sucesivamente para descubrir todos los productos. Los productos listados en la página 20 pueden tardar significativamente más en ser descubiertos e indexados que los de la página 1.

Revisa robots.txt para asegurar que los archivos CSS y JS no estén bloqueados
Implementa controles en la navegación facetada para prevenir trampas de rastreo
Usa etiquetas canonical para gestionar IDs de sesión y parámetros de seguimiento
Considera cargar más productos por página para reducir la profundidad de paginación

Dentro de la pipeline de indexación de Google: Trawler, Alexandria y Mustang

El leak Content Warehouse 2024 nombro los sistemas que mueven tu tienda desde URL hasta resultado rankeado. Trawler rastrea y obtiene páginas. Alexandria las indexa. Mustang luego ejecuta scoring inicial (el Ascorer) usando cientos de features, antes de que los twiddlers reordenen los resultados. Cada página de producto en tu tienda pasa por cada etapa.

Para las tiendas, la implicacion de la pipeline es que las senales de prioridad de crawl (link equity, frescura, profundidad de enlaces internos) deciden con que frecuencia Trawler revisita una URL. Las páginas enterradas a 4+ clics, sin enlaces internos entrantes y con fechas lastmod obsoletas, se crawlean raramente - y los cambios que les hagas tardan mucho más en mostrarse en los rankings. El atributo hostAge del leak también confirma el "sandbox" largamente rumoreado: dominios nuevos de menos de ~12 meses ven visibilidad limitada independientemente de la optimización.

La indexación tampoco es binaria. Alexandria puede indexar una URL sin mostrarla (Google Search Console las marca como "Rastreadas - actualmente no indexadas"), y la eleccion esta influenciada por senales de calidad ya calculadas al momento de indexación. La conclusion para ecommerce: trata la arquitectura de crawl y la base técnica como cargas portantes - deciden cuales de tus páginas siquiera llegan a la etapa de scoring.

Trawler -> Alexandria -> Mustang -> twiddlers es la cadena real de ranking divulgada en el leak
La frecuencia de revisita de Trawler depende de link equity, frescura y profundidad de enlaces internos - entierra una PDP y los updates aterrizan en semanas
Alexandria puede indexar sin servir; las senales de calidad computadas en indexación deciden que puede mostrarse
hostAge confirma el efecto sandbox: dominios con menos de ~12 meses ven visibilidad limitada

Trabaja con expertos SEO que entienden el e-commerce

La primera agencia SEO del mundo fundada por e-commerce

Cómo Google encuentra tiendas online - EcomSEO Academia | EcomSEO