Googlebot

GoogleBot es el robot de búsqueda usado por la empresa Google que colecciona documentos desde la web con el fin de construir una base de datos para el motor de búsqueda Google.

Robots.txt

Si un webmaster no desea que su página sea analizada por un Bot, puede insertar un método llamado robots.txt, el cual evita que GoogleBot (y otros bots) investiguen una o varias páginas (o incluso todo el contenido en total) del sitio web.

Más información

GoogleBot descubre enlaces a otras páginas, y se dirige hacia ellos también, así puede abarcar toda la web fácilmente. Es el robot que utiliza Google para 'rastrear' los sitios de Internet. No solamente indexa páginas web (HTML), sino que también extrae información de ficheros PDF, PS, XLS, DOC y algunos otros más.

La frecuencia con la que Googlebot accede a un sitio web depende del PageRank de éste. Mientras mayor sea este valor, el robot accederá más asiduamente a sus páginas.

Por ejemplo, podemos probar que los sitios con PR10 (el valor más alto), como yahoo.com o usatoday.com, han sido 'rastreados' por GoogleBot ayer o incluso o hoy mismo, mientras que otros han sido accedidos hace varias semanas. Esto se puede comprobar accediendo al 'cache' de esta página.

DeepBot

Googlebot tiene dos versiones, DeepBot y FreshBot. DeepBot investiga profundamente tratando de seguir cualquier enlace de una página, además de poner tal página en el caché, y dejarla disponible para Google. En marzo del 2006, completaba este proceso en casi un mes.

FreshBot

Freshbot investiga la web buscando contenido nuevo. Visita sitios que cambian frecuentemente. Idealmente, el FreshBot visitará la página de un periódico todos los días, mientras que la de una revista cada semana, o cada 15 días. Así, por ejemplo, puede captar noticias que recién hayan ocurrido, sin tener que esperar semanas.

Comprobación

Para comprobar si GoogleBot ha accedido a nuestro sitio web, deberemos echar un vistazo a los logs de nuestro servidor. En ellos, deberemos observar si hay registros de accesos en los que aparezca 'GoogleBot'. Generalmente aparecerá el nombre del servidor, el cual podrá ser alguno de estos:

 SERVIDOR DIRECCION IP's crawl1.googlebot.com 216.239.46.20 crawl2.googlebot.com 216.239.46.39 crawl3.googlebot.com 216.239.46.61 crawl4.googlebot.com 216.239.46.82 crawl9.googlebot.com 216.239.46.234 crawler1.googlebot.com 64.68.86.9 crawler2.googlebot.com 64.68.86.55 crawler14.googlebot.com 64.68.82.138

Una vez que Googlebot haya 'rastreado' nuestra página, seguirá los enlaces que en ella encuentre (los HREF y los SRC).

Por lo tanto, si quieres que GoogleBot indexe tu página web, solamente es necesario que algún otro sitio tenga un enlace al tuyo. Si no es así, siempre puedes añadir directamente tu URL desde Google.

Referencias

Enlaces externos

Simulador de Googlebot

Datos: Q1425771

www.wiki3.es-es.nina.az

Googlebot

Robots.txt

Más información

DeepBot

FreshBot

Comprobación

Referencias

Enlaces externos

Provincias de Burundi

Provincias de Colombia

Provincias de Cundinamarca

Provincias de Gabón

Provincias de Italia

Provincias de Lituania

Provincias de Panamá

Provincias de Venezuela

Provincias del Cauca

Provincias del Imperio del Brasil

INSAS

INS Vikramaditya

IOIO

IAI Eitan

IAI Kfir

español