Aprendizaje Automático (Enero-Mayo 2009): Kawabonga! Fase 2

a. Breve descripción del medio ambiente.
El Internet es un sistema global de redes interconectadas que intercambian datos.
El ambiente en particular son los blogs que son web escritas en (x)HTML y que utilizan el protocolo HTTP para transferir datos de una computadora llamada Servidor a otra llamada cliente.

b. Breve descripción de la actividad o acción que va a aprender tu agente.
Un blog es un conjunto de palabras tanto en los post como en títulos.
Dentro del algoritmo, cada blog es representado por una tabla asociativa de palabras y el numero de veces que aparece esa palabra en ese blog (un count).
Categorizamos o agrupamos dos o más blogs de acuerdo a la distancia (similaridad entre los counts de las palabras). Si dos blogs hablan de un mismo tema es probable que utilicen las mismas palabras. El algoritmo deberá aprender la importancia que tienen las similaridades y diferencias entre las palabras de los títulos, posts y tags para determinar la categoría a la que pertenecen los blogs.

c. Solución planteada al problema utilizando el Algoritmos LMS.
1. Selección de la experiencia de aprendizaje
Feedback: No supervisado, el propósito es encontrar regularidades y patrones en el input.
Control de ejemplos: El programa elegirá la secuencia de estados y al final dar un resultado
2. Selección de la función objetivo
V(B)=1 si ha categorizado correctamente
V(B)=0 si ha categorizado incorrectamente
V(B)=V'(B), en otro caso
3. Selección de la representación de la función objetivo
V'(b) = w0 + (w1x1 - w2x2)/w5x5 + (w3x3 - w4x4)/w6x6 + (w7x7 - w8x8)/w9x9
x1 = Palabras similares dentro de posts entre dos blogs (distancia/acercamiento entre las palabras similares)
x2 = Palabras distintas dentro de posts entre dos blogs (distancia/alejamiento entre las palabras distintas)
x3 = Tags Iguales
x4 = Tags Distintas
x5 = Total de Palabras dentro de posts
x6 = Total de Tags dentro de posts
x7 = Palabras similares en título
x8 = Palabras diferentes en titulo
x9 = Palabras totales en titulos
4. Selección del algoritmo de aproximación – LMS para este caso.

d. Conclusiones después de la programación

Después de programarlo nos dimos cuenta, que tras varias corridas del algoritmo, la categorización se fue volviendo más exacta conforme se ajustaban los pesos, sin embargo creemos que el uso de este algoritmo no es la mejor solución para el tipo de aprendizaje que queremos lograr.

Aprendizaje Automático (Enero-Mayo 2009)

Friday, February 27, 2009

Kawabonga! Fase 2

No comments:

Post a Comment

Labels

Followers

Blog Archive

Contributors