fbpx
Wikipedia

Googlebot

GoogleBot es el robot de búsqueda usado por la empresa Google que colecciona documentos desde la web con el fin de construir una base de datos para el motor de búsqueda Google.

Robots.txt

Si un webmaster no desea que su página sea analizada por un Bot, puede insertar un método llamado robots.txt, el cual evita que GoogleBot (y otros bots) investiguen una o varias páginas (o incluso todo el contenido en total) del sitio web.

Más información

GoogleBot descubre enlaces a otras páginas, y se dirige hacia ellos también, así puede abarcar toda la web fácilmente. Es el robot que utiliza Google para 'rastrear' los sitios de Internet. No solamente indexa páginas web (HTML), sino que también extrae información de ficheros PDF, PS, XLS, DOC y algunos otros más.

La frecuencia con la que Googlebot accede a un sitio web depende del PageRank de éste. Mientras mayor sea este valor, el robot accederá más asiduamente a sus páginas.

Por ejemplo, podemos probar que los sitios con PR10 (el valor más alto), como yahoo.com o usatoday.com, han sido 'rastreados' por GoogleBot ayer o incluso o hoy mismo, mientras que otros han sido accedidos hace varias semanas. Esto se puede comprobar accediendo al 'cache' de esta página.

DeepBot

Googlebot tiene dos versiones, DeepBot y FreshBot. DeepBot investiga profundamente tratando de seguir cualquier enlace de una página, además de poner tal página en el caché, y dejarla disponible para Google. En marzo del 2006, completaba este proceso en casi un mes.

FreshBot

Freshbot investiga la web buscando contenido nuevo. Visita sitios que cambian frecuentemente. Idealmente, el FreshBot visitará la página de un periódico todos los días, mientras que la de una revista cada semana, o cada 15 días. Así, por ejemplo, puede captar noticias que recién hayan ocurrido, sin tener que esperar semanas.

Comprobación

Para comprobar si GoogleBot ha accedido a nuestro sitio web, deberemos echar un vistazo a los logs de nuestro servidor. En ellos, deberemos observar si hay registros de accesos en los que aparezca 'GoogleBot'. Generalmente aparecerá el nombre del servidor, el cual podrá ser alguno de estos:

 SERVIDOR DIRECCION IP's crawl1.googlebot.com 216.239.46.20 crawl2.googlebot.com 216.239.46.39 crawl3.googlebot.com 216.239.46.61 crawl4.googlebot.com 216.239.46.82 crawl9.googlebot.com 216.239.46.234 crawler1.googlebot.com 64.68.86.9 crawler2.googlebot.com 64.68.86.55 crawler14.googlebot.com 64.68.82.138 

Una vez que Googlebot haya 'rastreado' nuestra página, seguirá los enlaces que en ella encuentre (los HREF y los SRC).

Por lo tanto, si quieres que GoogleBot indexe tu página web, solamente es necesario que algún otro sitio tenga un enlace al tuyo. Si no es así, siempre puedes añadir directamente tu URL desde Google.

Referencias

Enlaces externos

  • Simulador de Googlebot
  •   Datos: Q1425771

googlebot, googlebot, robot, búsqueda, usado, empresa, google, colecciona, documentos, desde, construir, base, datos, para, motor, búsqueda, google, Índice, robots, más, información, deepbot, freshbot, comprobación, referencias, enlaces, externosrobots, editar. GoogleBot es el robot de busqueda usado por la empresa Google que colecciona documentos desde la web con el fin de construir una base de datos para el motor de busqueda Google Indice 1 Robots txt 2 Mas informacion 3 DeepBot 4 FreshBot 5 Comprobacion 6 Referencias 7 Enlaces externosRobots txt EditarSi un webmaster no desea que su pagina sea analizada por un Bot puede insertar un metodo llamado robots txt el cual evita que GoogleBot y otros bots investiguen una o varias paginas o incluso todo el contenido en total del sitio web Mas informacion EditarGoogleBot descubre enlaces a otras paginas y se dirige hacia ellos tambien asi puede abarcar toda la web facilmente Es el robot que utiliza Google para rastrear los sitios de Internet No solamente indexa paginas web HTML sino que tambien extrae informacion de ficheros PDF PS XLS DOC y algunos otros mas La frecuencia con la que Googlebot accede a un sitio web depende del PageRank de este Mientras mayor sea este valor el robot accedera mas asiduamente a sus paginas Por ejemplo podemos probar que los sitios con PR10 el valor mas alto como yahoo com o usatoday com han sido rastreados por GoogleBot ayer o incluso o hoy mismo mientras que otros han sido accedidos hace varias semanas Esto se puede comprobar accediendo al cache de esta pagina DeepBot EditarGooglebot tiene dos versiones DeepBot y FreshBot DeepBot investiga profundamente tratando de seguir cualquier enlace de una pagina ademas de poner tal pagina en el cache y dejarla disponible para Google En marzo del 2006 completaba este proceso en casi un mes FreshBot EditarFreshbot investiga la web buscando contenido nuevo Visita sitios que cambian frecuentemente Idealmente el FreshBot visitara la pagina de un periodico todos los dias mientras que la de una revista cada semana o cada 15 dias Asi por ejemplo puede captar noticias que recien hayan ocurrido sin tener que esperar semanas Comprobacion EditarPara comprobar si GoogleBot ha accedido a nuestro sitio web deberemos echar un vistazo a los logs de nuestro servidor En ellos deberemos observar si hay registros de accesos en los que aparezca GoogleBot Generalmente aparecera el nombre del servidor el cual podra ser alguno de estos SERVIDOR DIRECCION IP s crawl1 googlebot com 216 239 46 20 crawl2 googlebot com 216 239 46 39 crawl3 googlebot com 216 239 46 61 crawl4 googlebot com 216 239 46 82 crawl9 googlebot com 216 239 46 234 crawler1 googlebot com 64 68 86 9 crawler2 googlebot com 64 68 86 55 crawler14 googlebot com 64 68 82 138 Una vez que Googlebot haya rastreado nuestra pagina seguira los enlaces que en ella encuentre los HREF y los SRC Por lo tanto si quieres que GoogleBot indexe tu pagina web solamente es necesario que algun otro sitio tenga un enlace al tuyo Si no es asi siempre puedes anadir directamente tu URL desde Google Referencias EditarEnlaces externos EditarFAQ oficial de Googlebot Simulador de Googlebot Datos Q1425771Obtenido de https es wikipedia org w index php title Googlebot amp oldid 117866231, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos