RL tutorial

Tutorial with basic Q-learning and policy gradient

Dependencies

Python 3.6 (other python3 will work almost certainly, python2 - perhaps after some adjustments)
numpy
gym (basic version)
pytorch 0.4.0

These can be conveniently installed with conda in a conda environment, the basic version of gym is pip-installable.

This code is partially based on the tutorial of Arthur Juliani.

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
util		util
01_q_learning_tabular.py		01_q_learning_tabular.py
01_q_learning_tabular_solution.py		01_q_learning_tabular_solution.py
02_q_learning_net_solution.py		02_q_learning_net_solution.py
02a_q_learning_shallow_net.py		02a_q_learning_shallow_net.py
02a_q_learning_shallow_net_solution.py		02a_q_learning_shallow_net_solution.py
02b_q_learning_deep_net.py		02b_q_learning_deep_net.py
02b_q_learning_deep_net_solution.py		02b_q_learning_deep_net_solution.py
02c_q_learning_deep_net_batch_processing.py		02c_q_learning_deep_net_batch_processing.py
02c_q_learning_deep_net_batch_processing_solution.py		02c_q_learning_deep_net_batch_processing_solution.py
03_policy_gradient.py		03_policy_gradient.py
03_policy_gradient_solution.py		03_policy_gradient_solution.py
README.md		README.md