|
Los robots son programas automatizados, y las arañas
(spiders ) son un tipo de robots que se desplazan continuamente
por la red, saltando de un lugar a otro con el fin de
compilar estadísticas sobre el Web o crear bases
de datos con el contenido del mismo (Altavista, Lycos,
WebCrawler los utilizan).
Las arañas hacen un valioso trabajo para todos;
sin ellas sería imposible crear índices
actualizados de la red. Pero también tiene sus
desventajas: aumentan el tráfico en la red, además
de que una araña mal diseñada puede visitar
tantas veces a un sitio que impide el acceso a los usuarios.
Tampoco pueden discernir sobre páginas permanentes
y temporales, a menos que los sitios que visiten sean
concientes de los robots.
¿Cómo funcionan?
Básicamente, un visualizador es un programa
que responde a información introducida por el
usuario, enviando comandos HTTP (HyperText Transport
Protocol - Protocolo de transporte de hipertexto) a
través de internet. Las páginas Web son
archivos de HTML que contienen texto, códigos
de formato y otros datos que definen su contenido.
Hacer clic en un vínculo ejecuta una serie de
acciones:
El visualizador recupera la URL (Uniform Resource Locator
- Localizador de recursos uniformes) del destino a la
página actual.
Establece una conexión con el servidor remoto,
transmite un código Get http para recuperar el
archivo HTML y presenta el documento en la pantalla.
Pues bien, un robot Web es un visualizador con piloto
automático. En vez del usuario haciendo clics,
el robot baja una página del Web y busca vínculos
hacia otros sitios, selecciona una URL y salta hacia
ella; desde allí, salta a otro sitio Web y comienza
todo de nuevo. Cuando llega a páginas sin vínculos,
regresa uno o dos niveles, y salta hacia uno de los
que omitió la vez anterior.
¿Qué hacen?
¿Qué hace un robot con las páginas
que visita?. Bueno, depende de la razón para
lo cual fue creado. Los robots que hacen índices
del Web, utilizan algoritmos para generar resúmenes
de documentos que se almacenan en inmensas bases de
datos.
Otros robots sirven para identificar los vínculos
hacia páginas que ya no existen; otros para llevar
estadísticas relacionadas con su uso (sitios
más populares, por ejemplo), etc.
¿Cómo controlar
su comportamiento?
Gracias al SRE (Standard for Robot Exclusion - Estándar
para la exclusión de robots), protocolo que permitirá
a administradores de sitios indicar instrucciones hacia
los distintos robots.
Por ejemplo, se puede indicar que no revisen el contenido
completo de un sitio, que no trabajen en las páginas
en construcción o no ingrese a directorios que
no poseen páginas HTML, haciendo además
más eficiente y rápido su trabajo.
Para traspasar las instrucciones deseadas a una araña,
sólo debe crearse un archivo de texto denominado
"robots.txt".
Este archivo de texto contendrá comandos de un
sencillo lenguaje indicando las políticas de acceso
de un sitio a estos extraños seres del cyberespacio.
¿Cómo es un archivo
robots.txt?
Por ejemplo, a continuación se muestra un archivo
sencillo que solicita al robot que se aleje de /dibujos/imagenes
y de sus subdirectorios.
# Ejemplo archivo robots.txt
User-agent:*
Disallow: /dibujos/imagenes
La primera línea corresponde a un comentario
(#).
La segunda línea indica a que robot se le hace
la solicitud; en este caso, la orden es para todos (*).
La tercera línea muestra a que ruta se le quita
el acceso, conjuntamente con los directorios que le
siguen en orden jerárquico.
Si se desea indicar una orden específica para
un robot:
# Ejemplo archivo robots.txt
User-agent:*
Disallow: /dibujos/imagenes
Disallow: /en_construccion
User-agent:Scooter
Disallow:
En el ejemplo, el robot Scooter tiene acceso ilimitado
dentro del sitio, pero prohibe a otros a ingresar a
las rutas especificadas. [Scooter es el robot de AltaVista].
Si desea prohibir el acceso de cualquier robot a su
sitio:
# Ejemplo archivo robots.txt
User-agent: *
Disallow: / |