SEO avanzado

12 min de lectura

Análisis de archivos de registro

Los archivos de registro del servidor son la unica fuente de verdad sobre como los rastreadores de motores de busqueda interactuan realmente con su sitio de ecommerce. Mientras que herramientas como Google Search Console proporcionan resumenes agregados, los datos brutos de registro revelan exactamente que URLs solicita Googlebot, con que frecuencia regresa, que páginas ignora por completo y donde se desperdicia su presupuesto de rastreo. Para grandes catálogos de ecommerce, el análisis de archivos de registro es la diferencia entre adivinar los problemas de rastreo y diagnosticarlos con precision.

PorFabian van Til— SEO Lead, EcomSEO
·
Última revisión:

Comprender los datos de registro del servidor para SEO

Cada vez que un bot de motor de busqueda solicita una página de su servidor, el servidor web registra una entrada que contiene la direccion IP, la cadena de agente de usuario, la URL solicitada, el codigo de respuesta HTTP, el tamano de la respuesta, la marca de tiempo y el referrer. Para fines de SEO, los campos criticos son el agente de usuario, la URL solicitada, el codigo de estado retornado y la marca de tiempo.

Googlebot se identifica a traves de varias cadenas de agente de usuario que distinguen entre renderizado de escritorio, renderizado movil, rastreo de imagenes, AdsBot y otros rastreadores especializados. Filtrar los registros solo por solicitudes de Googlebot requiere coincidir con todos los patrones de agente de usuario conocidos. Verifique la identidad de Googlebot cruzando direcciones IP con los rangos ASN publicados por Google.

Los archivos de registro se almacenan tipicamente en Common Log Format (CLF) o Combined Log Format. Si su plataforma de ecommerce funciona detras de un CDN, puede necesitar configurarlo para pasar las direcciones IP reales del cliente.

Para tiendas de ecommerce con volumen de tráfico significativo, los archivos de registro brutos pueden crecer a gigabytes por dia. El análisis eficiente requiere herramientas especializadas o un pipeline de datos que ingeste registros en una base de datos consultable como BigQuery o Elasticsearch.

Filtrar registros por agentes de usuario Googlebot verificados y rangos IP para excluir bots falsos
Capturar agente de usuario, URL, codigo de estado, marca de tiempo y tamano de respuesta como campos minimos
Configurar el reenvio de registros del CDN para asegurar que las solicitudes de bots se capturen en el servidor origen
Usar herramientas de análisis de registros especializadas o pipelines de datos para tiendas con alto volumen
Tip

Configure un flujo de registros separado dedicado al tráfico de bots que filtre los visitantes humanos a nivel del servidor. Esto reduce drasticamente el volumen de datos a procesar y hace que el análisis del comportamiento de Googlebot sea más rápido y enfocado.

Análisis de presupuesto de rastreo para catálogos de productos

El presupuesto de rastreo es el número de páginas que Google rastreara en su sitio dentro de un periodo dado. Para sitios pequenos, el presupuesto de rastreo rara vez es un problema. Pero las tiendas de ecommerce con decenas de miles de páginas de producto, multiples jerarquias de categorías y navegación facetada pueden facilmente agotar su presupuesto en URLs de bajo valor.

El análisis de archivos de registro revela su asignacion real de presupuesto de rastreo. Calcule el número total de solicitudes de Googlebot por dia, luego segmente esas solicitudes por patrón de URL. Los patrones comunes incluyen páginas de detalle de producto, páginas de categoría, páginas de resultados de busqueda, URLs de navegación facetada, páginas paginadas y activos estaticos.

La proporcion de asignacion de rastreo deberia coincidir aproximadamente con sus prioridades de indexación. Si el 60% de las solicitudes de Googlebot se dirigen a URLs de navegación facetada con contenido duplicado y delgado, tiene un problema severo de presupuesto de rastreo.

Calcule la frecuencia de rastreo para sus páginas más importantes. Si las páginas de producto principales solo se rastrean cada 30 dias mientras los productos agotados reciben visitas diarias, su estructura de enlaces internos esta enviando las senales equivocadas.

Rastree las tendencias del presupuesto de rastreo a lo largo del tiempo. Una tasa de rastreo decreciente a menudo senala deterioro de la salud del sitio.

Crawl-Verschwendung

Segmente las solicitudes del robot de Google por patrón de URL para identificar dónde se gasta el presupuesto. Bloquee combinaciones de filtros de bajo valor en robots.txt y utilice etiquetas canónicas para redirigir la atención del rastreo a productos indexables.

Gráfico de barras que muestra la asignación del presupuesto de rastreo: el 60 por ciento se desperdicia en URL de navegación por facetas, mientras que solo el 15 por ciento llega a las páginas de productos.
Si el 60% de las solicitudes del robot de Google se dirigen a la navegación por facetas, mientras que solo el 15% llega a las páginas de productos, tiene un grave problema de presupuesto de rastreo que necesita una corrección inmediata.
Segmentar solicitudes de Googlebot por patrón de URL para identificar donde se gasta el presupuesto de rastreo
Comparar ratios de asignacion de rastreo con la prioridad de indexación para cada tipo de URL
Bloquear patrones de URL de bajo valor que consumen presupuesto de rastreo sin beneficio de indexación
Rastrear la frecuencia de rastreo de páginas de producto de alta prioridad para asegurar cobertura adecuada

Identificar desperdicio de rastreo y páginas huerfanas

El desperdicio de rastreo ocurre cuando Googlebot gasta tiempo y recursos solicitando URLs sin valor SEO. En tiendas de ecommerce, las fuentes comunes incluyen parametros de ID de sesión, páginas de resultados de busqueda interna, combinaciones de parametros de ordenamiento y filtrado, y páginas de carrito y pago.

El análisis de archivos de registro cuantifica exactamente cuanto presupuesto de rastreo consume cada categoría de desperdicio. Cruce sus datos de registro con su indice deseado comparando las URLs que Googlebot solicita con su sitemap XML y el informe de cobertura de indice de Search Console.

Las páginas huerfanas son el problema opuesto: páginas que existen y deberian ser indexadas pero nunca reciben una sola solicitud de Googlebot. Para encontrar páginas huerfanas, compare la lista completa de URLs de productos de su base de datos con las URLs que aparecen en sus archivos de registro en un periodo de 90 dias.

Las páginas huerfanas en ecommerce tipicamente surgen de enlaces internos rotos, paginacion profunda que Googlebot no alcanza, o productos recientemente anadidos que aun no estan enlazados desde páginas de categoría.

Cree un panel sistematico de salud de rastreo que rastree la proporcion de rastreos productivos versus rastreos desperdiciados. Un sitio de ecommerce saludable deberia apuntar a al menos 70-80% de ratio de rastreo productivo.

Verwaiste Seiten

Las páginas huérfanas con un historial de conversiones comprobado representan oportunidades inmediatas de recuperación de ingresos. Haga una referencia cruzada de las URL huérfanas con datos de ventas para priorizar qué páginas volver a conectar a través del enlace interno.

Diagrama de comparación que muestra el desperdicio de rastreo de ID de sesión y filtros versus páginas huérfanas de enlaces rotos y paginación profunda
Compare la base de datos de su producto con los datos de rastreo de registros de 90 días para encontrar páginas huérfanas. Un sitio de comercio electrónico saludable debe apuntar a una tasa de rastreo productiva del 70-80%.
Cuantificar el desperdicio de rastreo categorizando las solicitudes de Googlebot a patrones de URL no indexables
Encontrar páginas huerfanas comparando la base de datos de productos con datos de rastreo de registros de 90 dias
Corregir causas de páginas huerfanas: enlaces rotos, paginacion profunda, entradas de sitemap faltantes
Rastrear el ratio de rastreo productivo apuntando a 70-80% de solicitudes de Googlebot a páginas indexables
Tip

Exporte su lista de páginas huerfanas y crucela con Google Analytics o los datos de ventas de su plataforma de ecommerce. Las páginas huerfanas con historial de conversion probado representan oportunidades inmediatas de recuperacion de ingresos una vez que recuperen la visibilidad de busqueda mediante enlaces internos correctos.

Análisis de codigos de estado y deteccion de errores

Los codigos de estado HTTP en los archivos de registro revelan la salud de su estructura de URL desde la perspectiva de Google. Cada solicitud de Googlebot que retorna un codigo de estado no-200 representa una oportunidad de indexación pérdida o presupuesto de rastreo desperdiciado.

Las cadenas de redireccion 301 y 302 son comunes en tiendas de ecommerce que frecuentemente cambian estructuras de URL o migran de plataforma. El análisis de registros revela cuantas solicitudes de Googlebot encuentran cadenas de redireccion y la profundidad de esas cadenas. Identifique URLs donde Googlebot encuentra más de un salto de redireccion y aplane esas cadenas.

Los errores 404 de Googlebot indican URLs que alguna vez fueron validas pero ahora retornan respuestas de no encontrado. En ecommerce, esto ocurre tipicamente cuando los productos se descontinuan o las categorías se reorganizan sin implementar redirecciones.

Los errores de servidor 5xx son los codigos de estado más daninos para SEO. Activan la reducción de la tasa de rastreo. El análisis de registros puede revelar si los errores 5xx correlacionan con patrones de URL especificos, periodos horarios o picos de tráfico.

Las páginas soft 404, donde el servidor retorna un codigo 200 pero el contenido de la página indica que el producto no esta disponible, son más dificiles de detectar solo en registros. Combine el análisis de registros con datos de rastreo para identificarlas. Los errores de servidor 5xx son los codigos de estado más daninos para el SEO y representan una preocupacion central del SEO técnico.

Aplanar cadenas de redireccion donde Googlebot encuentra más de un salto a la URL final
Investigar picos de 404 que correlacionen con cambios de sitemap, reestructuracion de categorías o eliminacion de productos
Monitorear patrones de errores 5xx por tipo de URL y hora del dia para identificar problemas de capacidad del servidor
Combinar datos de registro con análisis de rastreo para detectar páginas soft 404 que retornan codigos 200

Análisis de patrones y tiempos de rastreo

Analizar cuando Googlebot rastrea su sitio revela patrones que informan la planificacion de capacidad del servidor, las estrategias de frescura de contenido y la optimización del sitemap. Grafique las solicitudes de Googlebot en el tiempo para identificar picos y valles de actividad de rastreo a lo largo de las horas del dia, los dias de la semana y patrones estacionales.

La mayoria de los sitios de ecommerce ven actividad de Googlebot distribuida durante el dia pero a menudo con mayor intensidad durante las horas de menor actividad cuando los tiempos de respuesta del servidor son más rapidos.

Despues de enviar un sitemap XML actualizado a traves de Search Console, monitoree los archivos de registro para medir la rapidez con que Googlebot comienza a solicitar las nuevas URLs. El retraso entre el envío del sitemap y el rastreo real proporciona información sobre la priorizacion de Google para su dominio.

Rastree la profundidad de rastreo que Googlebot alcanza en la jerarquia de su sitio. Analice la profundidad de ruta URL de las páginas rastreadas para determinar si Googlebot alcanza sus páginas de producto más profundas o se detiene en categorías de nivel superior.

Compare patrones de rastreo antes y despues de cambios importantes del sitio. Los cambios en el volumen de rastreo despues de un cambio técnico confirman si la modificacion tuvo el efecto deseado.

Graficar el volumen de solicitudes de Googlebot en el tiempo para identificar picos y valles de actividad de rastreo
Medir el retraso entre envíos de sitemap y solicitudes de rastreo reales de Googlebot
Analizar la profundidad de ruta URL de páginas rastreadas para verificar que Googlebot alcanza páginas de producto profundas
Comparar patrones de rastreo antes y despues de cambios técnicos importantes para validar el impacto

Configurar un pipeline de análisis de registros

Construir una practica sostenible de análisis de registros requiere un pipeline que recopile, procese y visualice automáticamente los datos de registro. Para la mayoria de los equipos de ecommerce, el objetivo es un sistema que proporcione informes diarios o semanales de salud de rastreo con alertas para anomalias.

Comience determinando donde se generan sus registros y como acceder a ellos. Si usa alojamiento gestionado o una plataforma como Shopify, el acceso a registros puede ser limitado. Para tiendas auto-alojadas, configure su servidor web para transmitir registros a una ubicacion de almacenamiento centralizada.

Para el análisis, elija entre herramientas comerciales y pipelines personalizados. Las herramientas comerciales como Botify, JetOctopus o Screaming Frog Log Analyzer ofrecen paneles pre-construidos enfocados en SEO. Los pipelines personalizados con BigQuery o Elasticsearch ofrecen más flexibilidad.

Establezca métricas de referencia: volumen diario de solicitudes de Googlebot, ratio de rastreo productivo, distribucion de frecuencia de rastreo por tipo de página, tasa de errores por codigo de estado y tiempo de respuesta promedio. Configure alertas automatizadas para desviaciones de estas referencias.

Integre los datos de análisis de registros con sus otras fuentes de datos SEO. La combinacion de la frecuencia de rastreo de los registros con datos de impresiones de Search Console y datos de tráfico de Analytics crea una imagen completa.

Configurar recopilacion automatizada de registros desde su servidor web o CDN a almacenamiento centralizado
Elegir entre herramientas de registro comerciales para paneles pre-construidos o pipelines personalizados para flexibilidad
Establecer métricas de referencia para volumen de rastreo, ratio productivo, tasa de errores y tiempo de respuesta
Integrar datos de registro con Search Console, Analytics y datos de herramientas de rastreo para visibilidad SEO completa
Tip

Programe revisiones mensuales de análisis de registros que comparen las métricas de rastreo actuales con sus referencias y meses anteriores. Cree una plantilla de informe estandarizada cubriendo la asignacion del presupuesto de rastreo, tendencias de errores, cantidad de páginas huerfanas y ratio de eficiencia de rastreo. Los informes consistentes transforman el análisis de registros de una auditoria puntual en una ventaja competitiva continua.

Lo que Trawler revela sobre el comportamiento de crawl (y lo que los logs no pueden mostrar)

El leak de 2024 nombro al crawler de Google Trawler y expuso las entradas que guian sus decisiones de scheduling. Los logs del servidor muestran lo que Trawler hizo realmente - que URLs solicito, con que frecuencia, con que codigos de respuesta - pero el leak es lo que explica por que.

Para análisis de logs ecommerce, esto significa que patrones especificos ahora tienen nombres especificos. Las URLs que Trawler golpea frecuentemente con 200s son páginas que considera dignas de crawl: tienen link equity, profundidad de enlaces internos <=3, lastmod preciso y cambios de contenido recientes. Las URLs que Trawler golpea raramente o nunca puntuan mal en esas entradas - y en el 90% de los casos esto mapea a un linking interno delgado, no a topes de crawl budget.

El leak también confirma un patrón largamente sospechado: Trawler crawlea las páginas de mayor calidad MÁS frecuentemente, y las de menor calidad MENOS frecuentemente. La frecuencia de crawl aumentada a una seccion es una senal positiva - Google la ve como digna de refrescar. La frecuencia disminuida, especialmente despues de actualizaciones algoritmicas recientes, a menudo correlaciona con senales lowQuality o pandaDemotion en alza en esas URLs. Leelo como una senal de calidad, no solo una cuestion de presupuesto.

Trawler es el nombre del leak para el crawler de Google; los logs muestran su comportamiento, el leak explica las entradas
Crawl frecuente = link equity + profundidad baja + lastmod preciso + updates recientes - diagnostica entradas faltantes primero
Trawler crawlea páginas de alta calidad más frecuentemente, baja calidad menos - el crawl en caida a menudo es senal de calidad
La mayoria de las páginas sub-crawleadas necesitan fixes de linking interno, no ingenieria de crawl budget

Trabaja con expertos SEO que entienden el e-commerce

La primera agencia SEO del mundo fundada por e-commerce

Análisis de archivos de registro - EcomSEO Academia | EcomSEO