06-05-2021 Tecnología

Crawlear, rastrear, arañas, son términos que se utilizan en el SEO y que tienen un peso esencial en cualquier estrategia de posicionamiento, puesto que, si esta fase falla, el resto también lo hará.

Veamos detalladamente en qué consiste un proceso de crawling.

¿Qué es crawling?

El Crawling es todo el recorrido que realiza una araña o crawler, cualquier bot de indexación enviado por los motores de búsqueda, con el fin de detectar, leer y analizar todo el contenido y el código que compone a una página web.

¿Para qué sirve el Crawling?

El Crawling sirve para repasar todo el contenido y enlaces de una web con el fin de indexar todo en los buscadores correspondientes. Es decir, sirve para que cada actualización o nuevo contenido que se publique en una página acabe apareciendo en Google y demás motores.

Bien aprovechado, el crawling puede ser la llave con la que escalar puestos en las SERP (Páginas de resultados de búsqueda de Google) y por lo tanto, generar mucho más tráfico, alcanzar a más usuarios y mejorar considerablemente la presencia en la red.

Echa un vistazo a este blog para saber más Qué son las keywords y su importancia en el SEO

Ejemplos de Crawling

Entre los ejemplos en los que el crawling es importante podemos ver el posicionamiento web.

En el algoritmo de Google existen una serie de parámetros que afectan directamente al crawleo y por tanto al posicionamiento, y estos son:

  • Valor y originalidad de contenidos.

  • Usabilidad y navegabilidad web.

  • Estructura y arquitectura de la página.

  • Facilidad de acceso por parte de las arañas de Google.

Los rastreadores

Hemos hablado de las arañas, también conocidas como crawlers o rastreadores. 

Podemos definirlos como programas que analizan los documentos de nuestra web, es decir, son como “bibliotecarios” que buscan, clasifican y ordenan.

Su principal función por tanto es la de crear bases de datos. 

Existen de varios tipos, según la clase de información que recolectan, estos son algunos de los más comunes.

Googlebot: La araña encargada de rastrear nuestro contenido y categorizar dentro de los resultados orgánicos. 

Fases del proceso de rastreo e indexación de Google

Ahora que ya sabemos qué es el crawling, veámoslo de manera más específica.

Primera fase: rastreo y clasificación

El proceso por el cual nuestras páginas aparecen en los resultados de Google pasa por una primera fase como hemos visto de rastreo (crawling).

Google pasa un tiempo concreto en nuestra web, con lo cual en ese tiempo debe “entender” nuestro contenido y asociarlo a las diferentes intenciones de búsqueda de los usuarios.

Fase dos: Indexación

No podemos olvidar la fase de indexación, ya que juega un papel fundamental, y  será el paso en el que Google añade nuestro contenido a su base de datos, es decir lo indexa.

Bloqueando a los robots de Google

Antes mencionamos que hay formas por las que podríamos estar limitando el acceso a estas arañas a nuestro contenido. 

Para esto existe un elemento de vital peso en el SEO conocido como robots.txt.

El fichero robots.txt es un fichero de texto que subimos a nuestro servidor, en el cual le damos instrucciones precisas a las diferentes arañas para permitirles o bloquearles el rastreo a Urls de nuestra web. 

Este bloqueo se puede hacer:

  • A todo el dominio

  • una url específica

  • Un path concreto

  • O un conjunto de Urls que cumplan un determinado patrón.

Ejemplo:

User-agent: *

Disallow: /login/

Allow: /dashboard/

Sitemap: https://www.soyunejemplo.com/front/sitemap.xml

 

Podemos observar, que tiene una primera línea donde especificamos el user-agent (el nombre del rastreador que queremos bloquear o permitir, de los vistos anteriormente), seguido de las órdenes «disallow» para prohibirle que entre o «allow» para permitirle.

En el caso concreto que vemos, al indicar con un * estamos diciendo que son «todos los crawlers», sin excepción. 

Les estamos prohibiendo que entren en el path /login/, pero dentro de ese path queremos permitirle que entren en /dashboard/

Una incorrecta configuración de este archivo, puede ocasionar que estemos bloqueando partes importantes de nuestro contenido.

Es un error común, tener la web entera bloqueada mientras se está desarrollando, y luego olvidar quitar dicho bloqueo, habiéndose puesto en producción ya, pero no estando accesible a Google.

Inicia creando tu página web, nosotros podemos ayudarte.

Escríbenos a hola@atura.mx

Valerio Perez |Director del área FrontEnd

icon Contácto
icon Redes
Sociales
RRSS