rastreo de tu sitio web

Rastreo de tu sitio web: 10 verificaciones que debes realizar

Al optimizar nuestros sitios web para su rastreo, nuestro objetivo principal es asegurarnos que los motores de búsqueda pasen su tiempo en nuestras páginas más importantes de manera regular y puedan encontrar cualquier contenido nuevo.

rastreo de sitio

Cada vez que Googlebot visita tu sitio web, tiene una ventana limitada para el rastreo, para descubrir tantas páginas y enlaces como sea posible. Cuando se alcanza ese límite, se detendrá.

El tiempo que tardan en volver a visitar tus páginas depende de varios factores diferentes que influyen en cómo Google prioriza las URL para el rastreo, que incluyen:

  • Rango de página.
  • Inclusión de mapa de sitio XML.
  • Posición dentro de la arquitectura del sitio.
  • Con qué frecuencia cambia la página.
  • Y más.

La conclusión es: tu sitio solo atrae la atención de Googlebot durante un tiempo finito con cada rastreo, lo que podría ser poco frecuente. Es por ello que debes asegurarte que el tiempo se use sabiamente.

Puede ser difícil saber por dónde comenzar a analizar qué tan optimizado está tu sitio para los rastreadores de motores de búsqueda, especialmente cuando trabajas en un sitio grande con muchas URL. O te encuentras en una gran empresa con mucha competencia, prioridades y correcciones pendientes de SEO por realizar.

Es por esto, que he reunido esta lista de verificaciones de alto nivel y su importancia para evaluar la higiene del rastreo para darte un punto de partida para tu análisis.

¿Cuántas páginas se indexan frente a cuántas páginas indexables hay en tu sitio?

Esto te muestra cuántas páginas en tu sitio están disponibles para que Google las indexe, y cuántas de ellas realmente pudo encontrar. Adicionalmente, cuántas determinó que eran lo suficientemente importantes como para ser indexadas.

¿Cuántas páginas se rastrean en general?

La comparación de la actividad de rastreo de Googlebot con la cantidad de páginas que tienes en tu sitio; puede brindarte información sobre a cuántas páginas Google no puede acceder o ha determinado que no tienen una prioridad suficiente para programar el rastreo regular.

¿Cuántas páginas no son indexables?

Pasar tiempo rastreando páginas no indexables no es el mejor uso del presupuesto Google. Comprueba cuántas de estas páginas se están rastreando y si alguna de ellas debería estar disponible para indexación.

¿Cuántas URL no se pueden rastrear?

Esto te mostrará cuántas páginas están evitando que los motores de búsqueda accedan a tu sitio. Es importante asegurarte que estas páginas no sean importantes para la indexación o para descubrir más páginas para rastrear.

Rastreo de páginas de bajo valor que se indexan

Al observar las páginas que Google ya ha indexado en tu sitio, proporciona una indicación de las áreas del sitio a las que el rastreador ha podido acceder.

Por ejemplo, estas pueden ser páginas que nos ha incluido en tus mapas del sitio, ya que son de baja calidad, pero de todos modos se han encontrado e indexado.

¿Cuántas páginas de error 4xx se están rastreando?

Es importante asegurarte que el presupuesto de rastreo no se use en las páginas de error en lugar de las páginas que deseas indexar.

Googlebot intentará periódicamente rastrear páginas de error 404 para ver si la página está activa nuevamente.

Así que asegúrate de usar los códigos de estado 410 correctamente para mostrar que las páginas han desaparecido y no es necesario volver a rastrearlas.

Rastreo de redireccionamientos internos

Cada solicitud que Googlebot realiza en un sitio utiliza un presupuesto de rastreo, y esto incluye cualquier solicitud adicional dentro de cada uno de los pasos en una cadena de redireccionamiento.

Ayuda a Google a rastrear de manera más eficiente y conserva el presupuesto, al asegurarte que solo las páginas con códigos de estado estén vinculadas dentro de tu sitio; y reduce la cantidad de solicitudes que se realizan a páginas que no son URL de destino final.

¿Cuántas páginas canónicas hay frente a páginas canonicalizadas?

El número de páginas canonicalizadas en tu sitio proporciona una indicación de cuánta duplicación hay en tu sitio. Si bien las etiquetas canónicas consolidan la equidad de enlaces entre conjuntos de páginas duplicadas, no ayudan a rastrear el presupuesto.

Google elegirá indexar una página de un conjunto de páginas canonicalizadas, pero para poder decidir cuál es la página principal, primero tendrá que rastrearlas todas.

¿Cuántas páginas facetadas se están rastreando?

Google solo necesita rastrear páginas que incluyen contenido no descubierto o URL no vinculadas.

La paginación y las facetas suelen ser una fuente de URL duplicadas y trampas de rastreadores.

Así que asegúrate que estas páginas que no incluyen contenido o enlaces únicos no se rastreen innecesariamente.

Como rel = next y rel = prev ya no son compatibles con Google, asegúrese que tu enlace interno esté optimizado para reducir la dependencia de la paginación para el descubrimiento de páginas.

¿Hay desajustes en el descubrimiento de páginas a través de fuentes de rastreo?

Si estás viendo páginas a las que acceden los usuarios a través de tus datos analíticos que no están siendo rastreados por los motores de búsqueda dentro de los datos de tu archivo de registro. Podría deberse a que estas páginas no son tan reconocibles para los motores de búsqueda como lo son para los usuarios.

Al integrar diferentes fuentes de datos con tus datos de rastreo, puedes detectar brechas en las que los motores de búsqueda no pueden encontrar fácilmente las páginas.

Las dos fuentes principales de descubrimiento de URL de Google son enlaces externos y mapas de sitio XML.

Es por ello, si tiene problemas para que Google rastree tus páginas, asegúrate que estén incluidas en tu mapa del sitio si aún no están vinculadas desde otras páginas que el motor ya conoce y visita regularmente.

Comentario finales sobre el rastreo de sitios web

Al realizar estas 10 comprobaciones en los sitios web que administras, deberías poder comprender mejor la capacidad de rastreo y el estado técnico general de ellos.

Una vez que identificas las áreas de rastreo desatendidas; puedes indicarle a Google que no monitoree esas páginas mediante el uso de métodos como el robots.txt.

Luego, puedes comenzar a influir para que rastree más de tus páginas importantes optimizando la arquitectura de tu sitio y los enlaces internos para que sean más prominentes y reconocibles.

También te puede interesar:

La ciencia de datos SEO. Consejos para usarla a tu favor

El SEO para nuevos emprendedores en 5 pasos sencillos

Deja un comentario