Este proyecto aborda el aprendizaje por refuerzo, un paradigma de inteligencia artificial donde un agente aprende a través de la experiencia para resolver problemas, maximizando recompensas mediante la toma de decisiones óptimas. Se explora particularmente la capacidad de los agentes para adaptarse a entornos con recompensas dinámicas utilizando la aplicación clásica "Grid World".
- value_function.ipynb: Implementación del algoritmo de evaluación de valores en un Grid World estático.
- q_learning.ipynb: Implementación del algoritmo Q-learning tradicional en un Grid World estático.
- q_learning_cl.ipynb: Implementación y análisis del comportamiento de agentes adaptativos y tradicionales en entornos dinámicos.
- q_learning_cl_tests.ipynb: Experimentos sobre cambios en recompensas del entorno y cómo el agente reacciona ante distintos escenarios.
- simulations: Animaciones ilustrativas del comportamiento del agente en diversos experimentos.
- Familiarización con la Teoría del Aprendizaje por Refuerzo: Se estudiaron las funciones de recompensa y los algoritmos de predicción y control.
- Implementación en Python: Configuración de agentes en un Grid World utilizando Q-learning.
- Experimentos con Recompensas Dinámicas: Diseño de entornos cambiantes y análisis de la capacidad de los agentes para readaptarse.
- Un agente se mueve a la izquierda o derecha para alcanzar un estado objetivo.
- Comportamiento del agente con Q-learning tradicional en un entorno con recompensas invertidas.
- Comparación entre agentes adaptativos y tradicionales en un Grid World bidimensional.
- Configuración del Grid World bidimensional con estados objetivo dinámicos.
Se desarrolló un agente capaz de percibir cambios abruptos en las recompensas, detonando una señal de "olvido" para reiniciar la exploración y adaptación. Esto se logra llevando un registro de las últimas recompensas y evaluando cambios significativos.
Se introdujeron mejoras para que el agente pueda identificar cambios en el entorno y reajustar su comportamiento de manera eficiente, logrando una rápida convergencia a nuevas políticas cuando las recompensas cambian.
- Agente adaptativo que detecta cambios y activa la señal de "olvido".
- Agente adaptativo en un Grid World bidimensional, mostrando coherencia con los resultados unidimensionales.
El proyecto demuestra cómo un enfoque adaptativo puede mejorar significativamente la capacidad de un agente para aprender y reajustarse en entornos con recompensas dinámicas. Las implementaciones realizadas proporcionan una base sólida para futuros trabajos en el manejo eficiente de la memoria y la optimización del aprendizaje continuo en agentes de inteligencia artificial.
Para más detalles, consulta los archivos y las animaciones en el repositorio.