Estándar de exclusión de robot

Robots

Estándar de exclusión de robot

El estándar de exclusión de robots, también conocido como el protocolo de la exclusión de robots o protocolo de robots.txt, es un método para evitar que ciertos bots que analizan los sitios web u otros robots que investigan todo o una parte del acceso de un sitio Web, público o privado, agreguen información innecesaria a los resultados de búsqueda. Los robots son de uso frecuente por los motores de búsqueda para categorizar archivos de los sitios Webs, o por los webmasters para corregir o filtrar el código fuente.

El archivo robots.txt

Un archivo robots.txt en un sitio web funcionará como una petición que especifica que determinados robots no hagan caso a archivos o directorios específicos en su búsqueda. Esto puede realizarse, por ejemplo, para dejar fuera de una preferencia los resultados de una búsqueda avanzada, o de la creencia que el contenido de los directorios seleccionados puede ser engañoso o inaplicable a la clasificación del sitio en su totalidad.

Desventajas

Este protocolo es consultivo. Confía en la cooperación de los robots del sitio web, de modo que marca una o más áreas de un sitio fuera de los límites de búsqueda con el uso de un archivo robots.txt, aunque este no necesariamente garantice aislamiento completo.

Algunos administradores de sitios Web utilizan el archivo robots.txt para hacer algunas secciones privadas, invisibles al resto del mundo, pero dado que los archivos están disponibles en forma pública, su contenido podría ser visto de todas maneras por cualquier persona con un navegador web y conocimientos medianamente avanzados.

En algunos casos el incluir un directorio en este archivo le anuncia su presencia a posibles hackers, así ellos pueden determinar fácilmente algunos softwares usados en el sitio mediante buscar «huellas típicas» en el robots.txt.