GoogleBot es el robot de búsqueda usado por la empresa Google que colecciona documentos desde la web con el fin de construir una base de datos para el motor de búsqueda Google.
Robots.txt
Si un webmaster no desea que su página sea analizada por un Bot, puede insertar un método llamado robots.txt, el cual evita que GoogleBot (y otros bots) investiguen una o varias páginas (o incluso todo el contenido en total) del sitio web.
Más información
GoogleBot descubre enlaces a otras páginas, y se dirige hacia ellos también, así puede abarcar toda la web fácilmente. Es el robot que utiliza Google para ‘rastrear’ los sitios de Internet. No solamente indexa páginas web (HTML), sino que también extrae información de ficheros PDF, PS, XLS, DOC y algunos otros más.
La frecuencia con la que Googlebot accede a un sitio web depende del PageRank de éste. Mientras mayor sea este valor, el robot accederá más asiduamente a sus páginas.
Por ejemplo, podemos probar que los sitios con PR10 (el valor más alto), como yahoo.com o usatoday.com, han sido ‘rastreados’ por GoogleBot ayer o incluso o hoy mismo, mientras que otros han sido accedidos hace varias semanas. Esto se puede comprobar accediendo al ‘cache’ de esta página.
DeepBot
Googlebot tiene dos versiones, DeepBot y FreshBot. DeepBot investiga profundamente tratando de seguir cualquier enlace de una página, además de poner tal página en el caché, y dejarla disponible para Google. En marzo del 2006, completaba este proceso en casi un mes.
FreshBot
Freshbot investiga la web buscando contenido nuevo. Visita sitios que cambian frecuentemente. Idealmente, el FreshBot visitará la página de un periódico todos los días, mientras que la de una revista cada semana, o cada 15 días. Así, por ejemplo, puede captar noticias que recién hayan ocurrido, sin tener que esperar semanas.
Comprobación
Para comprobar si GoogleBot ha accedido a nuestro sitio web, deberemos echar un vistazo a los logs de nuestro servidor. En ellos, deberemos observar si hay registros de accesos en los que aparezca ‘GoogleBot‘. Generalmente aparecerá el nombre del servidor, el cual podrá ser alguno de estos:
SERVIDOR DIRECCION IP's
crawl1.googlebot.com 216.239.46.20
crawl2.googlebot.com 216.239.46.39
crawl3.googlebot.com 216.239.46.61
crawl4.googlebot.com 216.239.46.82
crawl9.googlebot.com 216.239.46.234
crawler1.googlebot.com 64.68.86.9
crawler2.googlebot.com 64.68.86.55
crawler14.googlebot.com 64.68.82.138
Una vez que Googlebot haya ‘rastreado’ nuestra página, seguirá los enlaces que en ella encuentre (los HREF y los SRC).
Por lo tanto, si quieres que GoogleBot indexe tu página web, solamente es necesario que algún otro sitio tenga un enlace al tuyo. Si no es así, siempre puedes añadir directamente tu URL desde Google.