edit

MorvanZhou · MorvanZhou · commit c27ed3720b4c · 2017-04-15T19:24:31.000+10:00
diff --git a/Reinforcement_learning_TUT/experiments/Solve_BipedalWalker/A3C.py b/Reinforcement_learning_TUT/experiments/Solve_BipedalWalker/A3C.py
@@ -25,11 +25,11 @@
 N_WORKERS = multiprocessing.cpu_count()
 MAX_GLOBAL_EP = 8000
 GLOBAL_NET_SCOPE = 'Global_Net'
-UPDATE_GLOBAL_ITER = 5
-GAMMA = 0.99
+UPDATE_GLOBAL_ITER = 10
+GAMMA = 0.999
 ENTROPY_BETA = 0.005
-LR_A = 0.0001    # learning rate for actor
-LR_C = 0.001    # learning rate for critic
+LR_A = 0.00002    # learning rate for actor
+LR_C = 0.0001    # learning rate for critic
 GLOBAL_RUNNING_R = []
 GLOBAL_EP = 0