viernes, 5 de marzo de 2010

Crawlers o rastreadores de información

Los motores de búsqueda en internet forman sus bases de datos principalmente a partir del trabajo de robots. Éstos pueden ser utilizados para indexación de páginas de un sitio web, búsqueda de enlaces rotos, validación de códigos html de páginas, etc.

Según su función o especialización se dividen en diversas subcategorías de programas: spiders, worms, web crawlers, web ants, etc. Los rastreadores de información propiamente dicho, son los crawlers o web crawlers.

Un crawler o rastreador es un programa que descubre nuevas páginas y recursos en la web a partir de uno o varios enlaces llamados semillas (seeds). El espacio web que un rastreador recorre mientras analiza y recolecta se llama crawler frontier, éste puede ser un conjunto finito de páginas dentro de un sitio web, un conjunto de sitios o toda la web.


En función de la política que siga el rastreador, el contenido de la base de datos será distinto, por ello, los resultados a la hora de hacer una búsqueda en dos buscadores serán diferentes y, es la razón por la que la política de recolección es prácticamente un secreto industrial de las empresas de buscadores.

Existen varios problemas con los que se puede encontrar un rastreador:
  • la cobertura (la web es demasiado extensa para detectar todos los enlaces que existen),
  • la actualización (debe tener una política para que la información que existe en el motor de búsqueda sea lo más actualizada posible),
  • el acceso (muchos recursos no son accesibles a los rastreadores como recursos o directorios que necesitan usuario y contraseña, formatos que no reconoce o sitios que contienen información dinámica),
  • la duplicidad (recursos duplicados con distintas urls).
La forma de pasar información a un rastreador es a través de las etiquetas meta de html (atributos name, content), ubicadas en la cabecera de los documentos. ¡Hasta la próxima entrada!

4 comentarios:

  1. me paree alucinante todos estas cosas que tiene la Web... me parece algo imposible que un robot pueda analizar toda la información existente en la red, y ofrecernosla ordenada de una manera u otra... a l u c i n a n t e

    ¡Felicidades! a ti y a todas las mujeres fantásticas que nos rodean!

    ResponderEliminar
  2. Bueno espero que estos robots que van rastreando la web, sean tan listos que encuentren con rapidez nuestros blogs, ya que cumplen, por lo menos el mio algunas de las premisas: no es demasiado extenso, ja, ja, muy actualizado (no hay más, sino cate), totalmente accesible (entra quien quiere),y que yo sepa no hay duplicidad (por lo básico). Y aprovecho para publicitarlo......para quien aún no lo conozca...que morroooo, se llama Bibliotecario perdido en la web 2.0 (http://webdelbibliotecario.blogspot.com/)
    Un besito a mi churri

    ResponderEliminar
  3. Ay, que me sonrojo, jaja

    ResponderEliminar
  4. Mar, hay dos formas de que un buscador encuentre tu blog.

    1) Darlo de alta en el buscador que desees (google, yahoo, y msn search cubren el 95% del mercado). Aunque puede tardar.

    2) Conseguir enlaces en webs que ya estén dadas de alta. Recomiendo foros que compartan temática con tu blog, puesto que ya que tienen una actualización muy frecuente, los buscadores los revisan cada 24 horas más o menos.

    Te dejo un post mio por si además quieres saber algunas claves para posicionar tu blog.

    ResponderEliminar

Mi licencia

Creative Commons License

confidencias web 2.0 by Dolo is licensed under a Creative Commons Reconocimiento-No comercial-Sin obras derivadas 3.0 España License.
Based on a work at confidenciasweb.blogspot.com.
Permissions beyond the scope of this license may be available at http://creativecommons.org.