주제
내용
Dynamic programming은 Markov Decision Process(MDP)와 같이 주어진 환경에서 최적의 policy를 계산하기 위해 사용되는 알고리즘 입니다.
강화학습 문제에서 사용하기에 제약이 많지만 이론적으로 굉장히 중요합니다.
그리드월드의 예제로 실습을 통하여 Dynamic programming을 사용하여 최적의 policy를 찾아보고, 강화학습 문제에 적용하기에 제약이 많은 이유를 알아보겠습니다.
주제
내용
Monte Carlo Method와 Temporal-Difference Learning는 Dynamic programming처럼
환경의 정보를 알고 시작하는 것이 아닌, 경험을 통해 환경과 상호작용을 하며 배웁니다. Episode 끝까지 가야지만 Value를 측정 할 수 있는 Monte Carlo Method와 학습을 하며 Value를 업데이트 하며 배우는 Temporal-Difference Learning의 차이점을 실습을 통하여 알아보겠습니다.
주제
내용
딥러닝을 강화학습에 연결하면서, 여러가지 문제가 발생하였습니다. Deepmind는 이 문제를 어떠한 방법으로 해결하여 일부 게임에서 사람보다 플레이를 잘하는 에이전트를 만들었는지 알아보겠습니다.
Special thanks to Wonseok Jung & Kyung Mo Kweon