Blog de Marketing Online

¿Qué es el Crawl Budget?

El crawl budget, según Google,  es el número de URL que GoogleBot quiere y puede rastrear en una página web. Para muchas páginas web el crawl budget no debería ser un problema, pero si tu web tiene miles de páginas entonces es algo que debería interesarte.

Internet es un lugar grande, casi inmenso, y los recursos de Google y los demás buscadores no son infinitos. Eso quiere decir que el bot de Google puede rastrear solo una parte de los contenidos presentes en la red y de esta parte solo un porcentaje será indexado. Por eso entran en juego muchos factores que determinan cuántos recursos dedica Google a tu página web.

Uno de estos factores es el crawl rate limit —el limite de velocidad de rastreo— que determina el numero de conexiones paralelas que Google empleará para rastrear la página y el tiempo que esperará para recuperar las páginas. Podemos deducir que, cuanto más rápido sea tu sitio web, mejor se indexará y subirá el valor del crawl rate limit.

Además hay que tener en cuenta que el Googlebot dará prioridad y rastreará con mas frecuencia las URL más “famosas” y actualizadas.

Para entender mejor el concepto de velocidad de rastreo puedes mirar la sección Estadísticas de rastreo de tu web en Google Search Console:

Estadísticas de rastreo

El primer gráfico nos dice el numero de páginas rastreadas al día y el tercero el tiempo de descarga de una página. Puedes comprobar fácilmente que a las fechas con menor tiempo de descarga se corresponden con un mayor numero de páginas rastreadas al día.

¿Qué afecta negativamente al crawl budget?

 Entre los factores que pueden reducir el rastreo de nuestra web, los más comunes son los siguientes:

  • Filtros indexables: es un problema difuso en las tiendas online que suelen ofrecer muchas opciones de búsqueda al usuario (por ejemplo talla, color, marca, etc., ya que generan una cantidad potencialmente infinita de URLs.  Es recomendable, en estas situaciones, valorar caso por caso si es necesario indexar tantos filtros y encontrar una solución para que el bot siga viendo todo el contenido presente en nuestra web.
  • Contenido duplicado dentro del mismo sitio web, es decir, dos o más URLs que proporcionan un contenido parecido. 
  • Errores de rastreo 5xx: estos errores son interpretados por el Googlebot como una señal de que nuestro servidor no tiene suficiente rendimiento para gestionar el rastreo, con lo cual disminuirá nuestro crawl budget. Revisa la sección en Google Search Console para identificar y solucionar estos errores. 

Cabe mencionar que el crawl budget no es un factor de posicionamiento, pero a pesar de ello sí es importante optimizarlo, sobre todo si tenemos una web con miles de URLs.

New Call-to-action

Lingüista de origen italiano y con sólidos conocimientos de árabe. Es consultor de marketing online y especialista en SEO.

LinkedIn 

  • 5 may, 2017
  • Publicado por Antonino Arcudi
  • 3 Tags
  • 2 Comentarios

Comentarios

Hola! Interesante artículo sin duda. El Crawl Budget es uno de los factores más importantes en webs de gran tamaño y tengo la impresión de que mucha gente lo olvida y se piensa que simplemente porque su web tenga un gran tamaño, Google la rastreará entera sin problemas...¡Ojalá fuese así!
    Hola Ivan, muchas gracias! Estoy totalmente de acuerdo contigo! Seguramente es un factor importante a tener en cuenta aunque no el único.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>