SEO avanzado
12 min de lecturaAnalisis de archivos de registro
Los archivos de registro del servidor son la unica fuente de verdad sobre como los rastreadores de motores de busqueda interactuan realmente con su sitio de ecommerce. Mientras que herramientas como Google Search Console proporcionan resumenes agregados, los datos brutos de registro revelan exactamente que URLs solicita Googlebot, con que frecuencia regresa, que paginas ignora por completo y donde se desperdicia su presupuesto de rastreo. Para grandes catalogos de ecommerce, el analisis de archivos de registro es la diferencia entre adivinar los problemas de rastreo y diagnosticarlos con precision.
In this guide
- 1. Comprender los datos de registro del servidor para SEO
- 2. Analisis de presupuesto de rastreo para catalogos de productos
- 3. Identificar desperdicio de rastreo y paginas huerfanas
- 4. Analisis de codigos de estado y deteccion de errores
- 5. Analisis de patrones y tiempos de rastreo
- 6. Configurar un pipeline de analisis de registros
Comprender los datos de registro del servidor para SEO
Cada vez que un bot de motor de busqueda solicita una pagina de su servidor, el servidor web registra una entrada que contiene la direccion IP, la cadena de agente de usuario, la URL solicitada, el codigo de respuesta HTTP, el tamano de la respuesta, la marca de tiempo y el referrer. Para fines de SEO, los campos criticos son el agente de usuario, la URL solicitada, el codigo de estado retornado y la marca de tiempo.
Googlebot se identifica a traves de varias cadenas de agente de usuario que distinguen entre renderizado de escritorio, renderizado movil, rastreo de imagenes, AdsBot y otros rastreadores especializados. Filtrar los registros solo por solicitudes de Googlebot requiere coincidir con todos los patrones de agente de usuario conocidos. Verifique la identidad de Googlebot cruzando direcciones IP con los rangos ASN publicados por Google.
Los archivos de registro se almacenan tipicamente en Common Log Format (CLF) o Combined Log Format. Si su plataforma de ecommerce funciona detras de un CDN, puede necesitar configurarlo para pasar las direcciones IP reales del cliente.
Para tiendas de ecommerce con volumen de trafico significativo, los archivos de registro brutos pueden crecer a gigabytes por dia. El analisis eficiente requiere herramientas especializadas o un pipeline de datos que ingeste registros en una base de datos consultable como BigQuery o Elasticsearch.
Configure un flujo de registros separado dedicado al trafico de bots que filtre los visitantes humanos a nivel del servidor. Esto reduce drasticamente el volumen de datos a procesar y hace que el analisis del comportamiento de Googlebot sea mas rapido y enfocado.
Analisis de presupuesto de rastreo para catalogos de productos
El presupuesto de rastreo es el numero de paginas que Google rastreara en su sitio dentro de un periodo dado. Para sitios pequenos, el presupuesto de rastreo rara vez es un problema. Pero las tiendas de ecommerce con decenas de miles de paginas de producto, multiples jerarquias de categorias y navegacion facetada pueden facilmente agotar su presupuesto en URLs de bajo valor.
El analisis de archivos de registro revela su asignacion real de presupuesto de rastreo. Calcule el numero total de solicitudes de Googlebot por dia, luego segmente esas solicitudes por patron de URL. Los patrones comunes incluyen paginas de detalle de producto, paginas de categoria, paginas de resultados de busqueda, URLs de navegacion facetada, paginas paginadas y activos estaticos.
La proporcion de asignacion de rastreo deberia coincidir aproximadamente con sus prioridades de indexacion. Si el 60% de las solicitudes de Googlebot se dirigen a URLs de navegacion facetada con contenido duplicado y delgado, tiene un problema severo de presupuesto de rastreo.
Calcule la frecuencia de rastreo para sus paginas mas importantes. Si las paginas de producto principales solo se rastrean cada 30 dias mientras los productos agotados reciben visitas diarias, su estructura de enlaces internos esta enviando las senales equivocadas.
Rastree las tendencias del presupuesto de rastreo a lo largo del tiempo. Una tasa de rastreo decreciente a menudo senala deterioro de la salud del sitio.
Identificar desperdicio de rastreo y paginas huerfanas
El desperdicio de rastreo ocurre cuando Googlebot gasta tiempo y recursos solicitando URLs sin valor SEO. En tiendas de ecommerce, las fuentes comunes incluyen parametros de ID de sesion, paginas de resultados de busqueda interna, combinaciones de parametros de ordenamiento y filtrado, y paginas de carrito y pago.
El analisis de archivos de registro cuantifica exactamente cuanto presupuesto de rastreo consume cada categoria de desperdicio. Cruce sus datos de registro con su indice deseado comparando las URLs que Googlebot solicita con su sitemap XML y el informe de cobertura de indice de Search Console.
Las paginas huerfanas son el problema opuesto: paginas que existen y deberian ser indexadas pero nunca reciben una sola solicitud de Googlebot. Para encontrar paginas huerfanas, compare la lista completa de URLs de productos de su base de datos con las URLs que aparecen en sus archivos de registro en un periodo de 90 dias.
Las paginas huerfanas en ecommerce tipicamente surgen de enlaces internos rotos, paginacion profunda que Googlebot no alcanza, o productos recientemente anadidos que aun no estan enlazados desde paginas de categoria.
Cree un panel sistematico de salud de rastreo que rastree la proporcion de rastreos productivos versus rastreos desperdiciados. Un sitio de ecommerce saludable deberia apuntar a al menos 70-80% de ratio de rastreo productivo.
Exporte su lista de paginas huerfanas y crucela con Google Analytics o los datos de ventas de su plataforma de ecommerce. Las paginas huerfanas con historial de conversion probado representan oportunidades inmediatas de recuperacion de ingresos una vez que recuperen la visibilidad de busqueda mediante enlaces internos correctos.
Analisis de codigos de estado y deteccion de errores
Los codigos de estado HTTP en los archivos de registro revelan la salud de su estructura de URL desde la perspectiva de Google. Cada solicitud de Googlebot que retorna un codigo de estado no-200 representa una oportunidad de indexacion perdida o presupuesto de rastreo desperdiciado.
Las cadenas de redireccion 301 y 302 son comunes en tiendas de ecommerce que frecuentemente cambian estructuras de URL o migran de plataforma. El analisis de registros revela cuantas solicitudes de Googlebot encuentran cadenas de redireccion y la profundidad de esas cadenas. Identifique URLs donde Googlebot encuentra mas de un salto de redireccion y aplane esas cadenas.
Los errores 404 de Googlebot indican URLs que alguna vez fueron validas pero ahora retornan respuestas de no encontrado. En ecommerce, esto ocurre tipicamente cuando los productos se descontinuan o las categorias se reorganizan sin implementar redirecciones.
Los errores de servidor 5xx son los codigos de estado mas daninos para SEO. Activan la reduccion de la tasa de rastreo. El analisis de registros puede revelar si los errores 5xx correlacionan con patrones de URL especificos, periodos horarios o picos de trafico.
Las paginas soft 404, donde el servidor retorna un codigo 200 pero el contenido de la pagina indica que el producto no esta disponible, son mas dificiles de detectar solo en registros. Combine el analisis de registros con datos de rastreo para identificarlas.
Analisis de patrones y tiempos de rastreo
Analizar cuando Googlebot rastrea su sitio revela patrones que informan la planificacion de capacidad del servidor, las estrategias de frescura de contenido y la optimizacion del sitemap. Grafique las solicitudes de Googlebot en el tiempo para identificar picos y valles de actividad de rastreo a lo largo de las horas del dia, los dias de la semana y patrones estacionales.
La mayoria de los sitios de ecommerce ven actividad de Googlebot distribuida durante el dia pero a menudo con mayor intensidad durante las horas de menor actividad cuando los tiempos de respuesta del servidor son mas rapidos.
Despues de enviar un sitemap XML actualizado a traves de Search Console, monitoree los archivos de registro para medir la rapidez con que Googlebot comienza a solicitar las nuevas URLs. El retraso entre el envio del sitemap y el rastreo real proporciona informacion sobre la priorizacion de Google para su dominio.
Rastree la profundidad de rastreo que Googlebot alcanza en la jerarquia de su sitio. Analice la profundidad de ruta URL de las paginas rastreadas para determinar si Googlebot alcanza sus paginas de producto mas profundas o se detiene en categorias de nivel superior.
Compare patrones de rastreo antes y despues de cambios importantes del sitio. Los cambios en el volumen de rastreo despues de un cambio tecnico confirman si la modificacion tuvo el efecto deseado.
Configurar un pipeline de analisis de registros
Construir una practica sostenible de analisis de registros requiere un pipeline que recopile, procese y visualice automaticamente los datos de registro. Para la mayoria de los equipos de ecommerce, el objetivo es un sistema que proporcione informes diarios o semanales de salud de rastreo con alertas para anomalias.
Comience determinando donde se generan sus registros y como acceder a ellos. Si usa alojamiento gestionado o una plataforma como Shopify, el acceso a registros puede ser limitado. Para tiendas auto-alojadas, configure su servidor web para transmitir registros a una ubicacion de almacenamiento centralizada.
Para el analisis, elija entre herramientas comerciales y pipelines personalizados. Las herramientas comerciales como Botify, JetOctopus o Screaming Frog Log Analyzer ofrecen paneles pre-construidos enfocados en SEO. Los pipelines personalizados con BigQuery o Elasticsearch ofrecen mas flexibilidad.
Establezca metricas de referencia: volumen diario de solicitudes de Googlebot, ratio de rastreo productivo, distribucion de frecuencia de rastreo por tipo de pagina, tasa de errores por codigo de estado y tiempo de respuesta promedio. Configure alertas automatizadas para desviaciones de estas referencias.
Integre los datos de analisis de registros con sus otras fuentes de datos SEO. La combinacion de la frecuencia de rastreo de los registros con datos de impresiones de Search Console y datos de trafico de Analytics crea una imagen completa.
Programe revisiones mensuales de analisis de registros que comparen las metricas de rastreo actuales con sus referencias y meses anteriores. Cree una plantilla de informe estandarizada cubriendo la asignacion del presupuesto de rastreo, tendencias de errores, cantidad de paginas huerfanas y ratio de eficiencia de rastreo. Los informes consistentes transforman el analisis de registros de una auditoria puntual en una ventaja competitiva continua.
Herramientas y recursos gratuitos
Trabaja con expertos SEO que entienden el e-commerce
La primera agencia SEO del mundo fundada por e-commerce