Aqui les dejamos una breve descripción de nuestro avance dos del proyecto. Haber que les pareció, esperamos sus comentarios. Cualquier duda ya saben hahaha.
Breve descripción del medio ambiente.
Para este avance del proyecto, desarrollamos un ambiente representado por una matriz de 23 por 23. En principio está llena de ceros, excepto por la parte donde inician los elementos “nano”. La posición inicial, se encuentra aproximadamente en la mitad de la matriz y los elementos “nano” son representados por unos. Entonces, las figuras están formadas por unos, de acuerdo a los movimientos posibles para los elementos “nano”.
Descripción detallada de la acción a aprender por el agente.
Lo que el agente en principio debe de aprender es a formar una figura, en este caso la figura final propuesta es una silla. Para la implementación de este aprendizaje, se utilizarán una cantidad de reglas determinadas por el ambiente, estas son las que determinaran que figura se puede realizar. En términos generales, las reglas determinan que cada elemento “nano” no puede moverse si rompe en dos la estructura base, y cada elemento sólo puede moverse uniéndose a los otros elementos adyacentes. Finalmente cada movimiento asertivo con respecto a la figura final le dará razón al aprendizaje.
Solución planteada usando LMS
Actividad T: Aprender a realizar una figura, en este caso una silla.
Desempeño P: Número de aciertos de acuerdo a la figura final o a aprender.
Experiencia de entrenamiento E: El mejor movimiento posible a elegir a partir de las piezas con movimiento libre.
Feedback: Directo.
El agente tiene como opción varios tipos de movimientos, con base en estos, él elige el adecuado que resulte más certero a la figura inicial. Todo esto sin afectar los elementos ya posicionados correctamente en el espacio.
Entrenar con varias figuras, para aprender nuevos patrones. Todo esto con base en los movimientos posibles.
Función objetivo:
V: B - > R
V(b) = 50 -> Completó la figura final
V(b) = -50 -> No completó la figura final
V(b) = ^V(b)
x1 = Número de verticales
x2 = Distancia de la figura con respecto a su posición final (número de casillas).
x3 = Número de coincidencias entre las horizontales y las verticales.
V^(b) = w¬0 + x1w1 + x2w2 + x3w3 + x4w4
Los pesos dentro de la función objetivo se van ajustando con respecto al resultado que regresa la función experto. La selección de esta función esta basada en el hecho de que entre más acercado esté al resultado final mejores resultados de aprendizaje va a tener el agente, lo que influye directamente en la implementación para tener un aprendizaje rápido y eficaz para formar la figura determinada como la final.
Conclusiones después de la programación
Los resultados fueron interesantes. Cuando iniciamos la etapa de programación, no teníamos idea si de verdad el agente iba a aprender. Ya una vez programado, vimos de manera rápida como el agente aprendía e iba ajustando los pesos. Esto lo empezó a hacer con respecto a la función que el experto ofrecía así como el resultado del número de elementos que estaban bien de acuerdo a la figura final. Por este motivo, el agente aprendía muy rápido a realizar la figura. Aunque no se desarrolló de manera específica, se dejó abierta la parte de que aprendiera más de una sola figura, por lo que sólo se tendrían que guardar los elementos ya aprendidos, para generar nuevas figuras e incluso letras, sólo guardando las figuras ya aprendidas y utilizando el mismo algoritmo.
Monday, March 2, 2009
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment
Note: Only a member of this blog may post a comment.