Friday, January 30, 2009

Web Crawler + Applicacion Web

Un web crawler es un programa que navega de manera automática y sistemática por las páginas web, con el fin mostrar una relación entre palabras y URLs.
  1. Descripción detallada del medio ambiente.

    El Internet es un sistema global de redes interconectadas que intercambian datos.

    El ambiente en particular son lás páginas web escritas en (x)HTML y que utilizan el protocolo HTTP para transferir datos de una computadora llamada Servidor a otra llamada cliente.

  2. Plataforma en la que se programara el medio ambiente y lenguaje de programación a ser utilizado.

    Utilizaremos Python para hacer los prototipos del Web Crawler debido a que es un lenguaje que permite representar de manera sencilla los algoritmos además de contar con un gran numero de librerías y herramientas que facilitan la programación, como lo son avanzados profilers y debuggers.

    Para la aplicación tenemos pensado utilizar LAMP (Linux, Apache, MySQL y P*) para hacer la aplicación que presentara los resultados y hará las búsquedas en las bases de datos.

  3. Actividades o Acciones a Aprender:

    • Como ordenar las páginas de acuerdo a su importancia: Ajustar una función de relevancia para discriminar entre páginas "basura" y páginas útiles.

    • Como hacer recomendaciones a los usuarios: El crawler deberá aprender términos relecionados con lo buscado para poder hacer sugerencias sobre sitios similares.

No comments:

Post a Comment

Note: Only a member of this blog may post a comment.