Fundamentos de búsqueda

10 min de lectura

Cómo Google encuentra tiendas online

Antes de que Google pueda posicionar tus productos, necesita descubrirlos. Entender cómo Googlebot navega por los sitios de ecommerce revela por qué algunas tiendas consiguen miles de páginas indexadas mientras otras luchan por que se noten incluso sus páginas de categoría principales.

Cómo Googlebot rastrea sitios de ecommerce

Googlebot es el software que Google usa para obtener páginas web. Funciona siguiendo enlaces de una página a la siguiente, similar a un comprador que navega por tu tienda. Cuando llega a una página, lee el HTML, sigue los enlaces que encuentra y añade las URLs recién descubiertas a su cola de rastreo.

Para sitios de ecommerce, este proceso de rastreo encuentra complicaciones rápidamente. Una página de inicio puede enlazar a 15 páginas de categoría, cada una enlazando a 20 subcategorías, cada una listando 40 productos. Eso ya son 12.000 páginas de producto descubiertas desde un solo camino de rastreo. Pero Googlebot no tiene recursos ilimitados. Google asigna a cada sitio un presupuesto de rastreo basado en la autoridad del sitio y la capacidad del servidor.

Una tienda de tamaño medio con autoridad de dominio moderada podría ver a Googlebot solicitar de 5.000 a 15.000 páginas por día. Si tu tienda tiene 80.000 URLs incluyendo vistas filtradas y paginación, podría tomar semanas para que Googlebot visite cada página una vez. Por eso la eficiencia del rastreo es tan relevante para ecommerce. Cada URL que Googlebot desperdicia en una página filtrada sin valor es una URL que no dedicó a una página de producto que realmente quieres posicionar.

Googlebot sigue enlaces de página en página para descubrir URLs
Cada sitio recibe un presupuesto de rastreo según autoridad y velocidad del servidor
Las tiendas grandes pueden necesitar semanas para cobertura completa
Las páginas sin valor consumen presupuesto que podría ir a páginas de producto

La cola de rastreo y el sistema de prioridades

Googlebot no rastrea todas las páginas por igual. Mantiene una cola de prioridad que determina qué URLs se rastrean primero y con qué frecuencia se revisitan. Las páginas que cambian frecuentemente, reciben más enlaces internos o tienen mayor autoridad se rastrean más a menudo.

Tu página de inicio puede ser rastreada varias veces al día. Las páginas de categoría de primer nivel pueden rastrearse diariamente o cada pocos días. Las páginas de producto individuales más profundas en la estructura del sitio quizás solo se rastrean cada pocas semanas. Para un producto de temporada recién lanzado, ese retraso puede significar perder semanas de tráfico de búsqueda potencial.

Podemos influir en la prioridad de rastreo mediante enlaces internos. Una página de producto enlazada desde tu página de inicio, una página de categoría y tres publicaciones de blog será rastreada antes y con más frecuencia que una accesible solo a través de dos niveles de navegación por categorías. Por eso el enlazado interno estratégico es una de las tácticas SEO de mayor impacto para tiendas.

Tip

Revisa tus estadísticas de rastreo en Google Search Console en Configuración > Estadísticas de rastreo. Si el tiempo de respuesta promedio supera los 500 ms, la velocidad de tu servidor puede estar limitando cuántas páginas rastrea Googlebot por día.

Renderizado JavaScript y plataformas de ecommerce

Muchas plataformas de ecommerce modernas usan JavaScript para cargar información de productos, precios y reseñas. Los temas de Shopify, las tiendas headless basadas en React y algunas configuraciones de WooCommerce dependen en gran medida del renderizado del lado del cliente. Esto crea un desafío porque Googlebot rastrea en dos fases.

En la primera fase, Googlebot obtiene el HTML en bruto. Si el título del producto, la descripción y el precio se cargan vía JavaScript después del renderizado de la página, esa primera obtención de HTML devuelve una cáscara vacía. Google luego pone la página en cola para una segunda fase de renderizado donde ejecuta JavaScript. Esta cola de renderizado puede añadir días o incluso semanas de retraso antes de que Google vea tu contenido real.

Las tiendas de Shopify que usan el sistema de plantillas Liquid estándar generalmente evitan este problema porque los datos del producto se renderizan del lado del servidor. Pero las tiendas con configuraciones headless usando frameworks como Next.js o Nuxt necesitan implementar renderizado del lado del servidor (SSR) o generación de sitios estáticos (SSG) para garantizar que Googlebot vea el contenido del producto en la primera obtención.

Hemos auditado tiendas donde el 30 % de las páginas de producto no estaban indexadas porque el marcado schema del producto, las reseñas e incluso el título del producto se cargaban vía JavaScript que Googlebot no logró renderizar. Cambiar al renderizado del lado del servidor corrigió la indexación en tres semanas.

Googlebot rastrea en dos fases: obtención de HTML y luego renderizado de JavaScript
La cola de renderizado puede retrasar el descubrimiento de contenido días o semanas
Las plantillas Liquid estándar de Shopify renderizan del lado del servidor por defecto
Las configuraciones headless necesitan SSR o SSG para indexación fiable
Prueba tus páginas con la herramienta de inspección de URLs para ver qué renderiza Google

Sitemaps XML para el descubrimiento de productos

Un sitemap XML es un archivo que lista las URLs que quieres que Google conozca. Para sitios de ecommerce, los sitemaps sirven como canal directo para decirle a Google qué páginas existen, cuándo se actualizaron por última vez y con qué frecuencia cambian.

Una estrategia de sitemaps bien estructurada para ecommerce usa múltiples archivos de sitemap. Un sitemap para páginas de producto, otro para páginas de categoría, uno para contenido del blog y uno para páginas estáticas como tu página sobre nosotros y política de envíos. Esta separación te permite monitorear la indexación por tipo de página en Search Console.

Generalmente recomendamos incluir solo páginas canónicas e indexables en tus sitemaps. Las URLs filtradas, las páginas de productos agotados que has configurado como noindex, y las páginas de listado paginadas más allá de la página uno deberían excluirse. Un sitemap que lista 200.000 URLs cuando solo 30.000 son indexables envía una señal confusa a Google sobre la calidad de tu sitio.

La mayoría de las plataformas de ecommerce generan sitemaps automáticamente. Shopify crea un sitemap.xml que incluye productos, colecciones, páginas y publicaciones del blog. WooCommerce con Yoast SEO o RankMath genera sitemaps con más opciones de configuración. Independientemente de la plataforma, revisa tu sitemap mensualmente para asegurar que refleje la estructura actual de tu sitio.

Tip

Envía tus sitemaps en Google Search Console y revisa el informe de cobertura después de dos semanas. Si la proporción de páginas indexadas respecto a las enviadas está por debajo del 70 %, investiga por qué Google está eligiendo no indexar una parte significativa de tus URLs enviadas.

Los enlaces internos como caminos de descubrimiento

Mientras los sitemaps le dicen a Google que las páginas existen, los enlaces internos le muestran cómo se relacionan entre sí y cuáles son más relevantes. Una página de producto con 50 enlaces internos apuntando hacia ella tiene más prioridad de rastreo que una con solo 2.

Las páginas de categoría son la columna vertebral del enlazado interno para ecommerce. Cada página de categoría enlaza a docenas de productos, pasando prioridad de rastreo y señales de posicionamiento a esas páginas de producto. Una navegación de migas de pan bien estructurada añade otra capa de enlaces internos, conectando los productos de vuelta a sus categorías padre y la página de inicio.

Las secciones de venta cruzada y productos relacionados crean enlaces internos laterales entre productos. Cuando una página de producto de zapatillas de running enlaza a cordones, plantillas y calcetines relacionados, esas conexiones ayudan a Googlebot a descubrir más de tu catálogo mientras distribuyen la equidad de enlaces por toda tu tienda.

Las páginas huérfanas son el enemigo del descubrimiento. Una página huérfana no tiene enlaces internos apuntando a ella. Puede existir en tu sitemap, pero si Googlebot no puede alcanzarla siguiendo enlaces desde cualquier otra página, eso señala baja importancia. Encontramos frecuentemente páginas de producto huérfanas en tiendas que han reestructurado sus categorías sin actualizar los enlaces internos.

Las páginas de categoría distribuyen prioridad de rastreo a las páginas de producto debajo
Las migas de pan crean caminos ascendentes de enlaces internos hacia categorías e inicio
Las secciones de productos relacionados construyen enlaces laterales entre productos
Las páginas huérfanas sin enlaces internos son despriorizadas por Google

Problemas de descubrimiento comunes en ecommerce

El problema de descubrimiento más común que vemos es el de tiendas que bloquean a Googlebot de recursos esenciales en su archivo robots.txt. Algunas instalaciones de WooCommerce bloquean el directorio /wp-admin/, lo cual es correcto, pero accidentalmente también bloquean archivos CSS y JavaScript que Googlebot necesita para renderizar las páginas correctamente.

Otro problema frecuente son las trampas de rastreo infinitas por navegación facetada. Una tienda de ropa que permite a los usuarios combinar filtros de talla, color, material, marca y precio puede generar millones de URLs únicas. Sin controles adecuados, Googlebot puede gastar todo su presupuesto de rastreo explorando estas combinaciones de filtros sin alcanzar nunca las páginas de producto profundas.

Las URLs basadas en sesiones también causan problemas. Algunas plataformas de ecommerce añaden IDs de sesión o parámetros de seguimiento a las URLs, creando lo que parece ser miles de páginas duplicadas. Cada visita de Googlebot genera una nueva variante de URL, desperdiciando presupuesto de rastreo en páginas que son todas idénticas en contenido.

La paginación también puede ralentizar el descubrimiento. Si tu página de categoría lista 500 productos en 25 páginas paginadas, Googlebot necesita rastrear la página 1, la página 2, la página 3, y así sucesivamente para descubrir todos los productos. Los productos listados en la página 20 pueden tardar significativamente más en ser descubiertos e indexados que los de la página 1.

Revisa robots.txt para asegurar que los archivos CSS y JS no estén bloqueados
Implementa controles en la navegación facetada para prevenir trampas de rastreo
Usa etiquetas canonical para gestionar IDs de sesión y parámetros de seguimiento
Considera cargar más productos por página para reducir la profundidad de paginación

Trabaja con expertos SEO que entienden el e-commerce

La primera agencia SEO del mundo fundada por e-commerce

Cómo Google encuentra tiendas online - EcomSEO Academy | EcomSEO