| Los robots son programas
automatizados, y las arañas (spiders ) son un tipo de robots
que se desplazan continuamente por la red, saltando de un lugar
a otro con el fin de compilar estadísticas sobre el Web o
crear bases de datos con el contenido del mismo (Altavista, Lycos,
WebCrawler los utilizan).
Las arañas hacen un valioso trabajo
para todos; sin ellas sería imposible crear índices
actualizados de la red. Pero también tiene sus desventajas:
aumentan el tráfico en la red, además de que una araña
mal diseñada puede visitar tantas veces a un sitio que impide
el acceso a los usuarios. Tampoco pueden discernir sobre páginas
permanentes y temporales, a menos que los sitios que visiten sean
concientes de los robots.
¿ Cómo funcionan ?
Básicamente, un visualizador es un
programa que responde a información introducida por el usuario,
enviando comandos HTTP (HyperText Transport Protocol - Protocolo
de transporte de hipertexto) a través de internet. Las páginas
Web son archivos de HTML que contienen texto, códigos de
formato y otros datos que definen su contenido.
Hacer clic en un vínculo ejecuta una
serie de acciones:
El visualizador recupera la URL (Uniform
Resource Locator - Localizador de recursos uniformes) del destino
a la página actual.
Establece una conexión con el servidor remoto, transmite
un código Get http para recuperar el archivo HTML y presenta
el documento en la pantalla.
Pues bien, un robot Web es un visualizador con piloto automático.
En vez del usuario haciendo clics, el robot baja una página
del Web y busca vínculos hacia otros sitios, selecciona una
URL y salta hacia ella; desde allí, salta a otro sitio Web
y comienza todo de nuevo. Cuando llega a páginas sin vínculos,
regresa uno o dos niveles, y salta hacia uno de los que omitió
la vez anterior.
¿ Qué hacen ?
¿Qué hace un robot con las
páginas que visita?. Bueno, depende de la razón para
lo cual fue creado. Los robots que hacen índices del Web,
utilizan algoritmos para generar resúmenes de documentos
que se almacenan en inmensas bases de datos.
Otros robots sirven para identificar los
vínculos hacia páginas que ya no existen; otros para
llevar estadísticas relacionadas con su uso (sitios más
populares, por ejemplo), etc.
¿ Cómo controlar su comportamiento?
Gracias al SRE (Standard for Robot Exclusion
- Estándar para la exclusión de robots), protocolo
que permitirá a administradores de sitios indicar instrucciones
hacia los distintos robots.
Por ejemplo, se puede indicar que no revisen
el contenido completo de un sitio, que no trabajen en las páginas
en construcción o no ingrese a directorios que no poseen
páginas HTML, haciendo además más eficiente
y rápido su trabajo.
Para traspasar las instrucciones deseadas
a una araña, sólo debe crearse un archivo de texto
denominado "robots.txt".
Este archivo de texto contendrá comandos
de un sencillo lenguaje indicando las políticas de acceso
de un sitio a estos extraños seres del cyberespacio.
¿ Cómo es un archivo robots.txt?
Por ejemplo, a continuación se muestra
un archivo sencillo que solicita al robot que se aleje de /dibujos/imagenes
y de sus subdirectorios.
# Ejemplo archivo robots.txt
User-agent:*
Disallow: /dibujos/imagenes
La primera línea corresponde a un comentario (#).
La segunda línea indica a que robot
se le hace la solicitud; en este caso, la orden es para todos (*).
La tercera línea muestra a que ruta
se le quita el acceso, conjuntamente con los directorios que le
siguen en orden jerárquico.
Si se desea indicar una orden específica
para un robot:
# Ejemplo archivo robots.txt
User-agent:*
Disallow: /dibujos/imagenes
Disallow: /en_construccion
User-agent:Scooter
Disallow:
En el ejemplo, el robot Scooter tiene acceso
ilimitado dentro del sitio, pero prohibe a otros a ingresar a las
rutas especificadas. [Scooter es el robot de AltaVista].
Si desea prohibir el acceso de cualquier
robot a su sitio:
# Ejemplo archivo robots.txt
User-agent: *
Disallow: / |