- Descripción detallada del medio ambiente.
El Internet es un sistema global de redes interconectadas que intercambian datos.
El ambiente en particular son lás páginas web escritas en (x)HTML y que utilizan el protocolo HTTP para transferir datos de una computadora llamada Servidor a otra llamada cliente. - Plataforma en la que se programara el medio ambiente y lenguaje de programación a ser utilizado.
Utilizaremos Python para hacer los prototipos del Web Crawler debido a que es un lenguaje que permite representar de manera sencilla los algoritmos además de contar con un gran numero de librerías y herramientas que facilitan la programación, como lo son avanzados profilers y debuggers.
Para la aplicación tenemos pensado utilizar LAMP (Linux, Apache, MySQL y P*) para hacer la aplicación que presentara los resultados y hará las búsquedas en las bases de datos. - Actividades o Acciones a Aprender:
- Como ordenar las páginas de acuerdo a su importancia: Ajustar una función de relevancia para discriminar entre páginas "basura" y páginas útiles.
- Como hacer recomendaciones a los usuarios: El crawler deberá aprender términos relecionados con lo buscado para poder hacer sugerencias sobre sitios similares.
- Como ordenar las páginas de acuerdo a su importancia: Ajustar una función de relevancia para discriminar entre páginas "basura" y páginas útiles.
Friday, January 30, 2009
Web Crawler + Applicacion Web
Un web crawler es un programa que navega de manera automática y sistemática por las páginas web, con el fin mostrar una relación entre palabras y URLs.
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment
Note: Only a member of this blog may post a comment.