change maze for gain more positive reward

MorvanZhou · MorvanZhou · commit 59bb69a2e872 · 2016-12-18T22:37:55.000+11:00
diff --git a/Reinforcement_learning_TUT/5_Deep_Q_Network/maze_env.py b/Reinforcement_learning_TUT/5_Deep_Q_Network/maze_env.py
@@ -56,11 +56,11 @@ def _build_maze(self):
             hell1_center[0] + 15, hell1_center[1] + 15,
             fill='black')
         # hell
-        hell2_center = origin + np.array([UNIT, UNIT * 2])
-        self.hell2 = self.canvas.create_rectangle(
-            hell2_center[0] - 15, hell2_center[1] - 15,
-            hell2_center[0] + 15, hell2_center[1] + 15,
-            fill='black')
+        # hell2_center = origin + np.array([UNIT, UNIT * 2])
+        # self.hell2 = self.canvas.create_rectangle(
+        #     hell2_center[0] - 15, hell2_center[1] - 15,
+        #     hell2_center[0] + 15, hell2_center[1] + 15,
+        #     fill='black')
 
         # create oval
         oval_center = origin + UNIT * 2
@@ -114,7 +114,7 @@ def step(self, action):
         if next_coords == self.canvas.coords(self.oval):
             reward = 1
             done = True
-        elif next_coords in [self.canvas.coords(self.hell1), self.canvas.coords(self.hell2)]:
+        elif next_coords in [self.canvas.coords(self.hell1)]:
             reward = -1
             done = True
         else:
diff --git a/Reinforcement_learning_TUT/5_Deep_Q_Network/run_this.py b/Reinforcement_learning_TUT/5_Deep_Q_Network/run_this.py
@@ -13,7 +13,7 @@
 
 def run_maze():
     step = 0
-    for episode in range(200):
+    for episode in range(100):
         # initial observation
         observation = env.reset()
 
@@ -53,8 +53,8 @@ def run_maze():
                       reward_decay=0.9,
                       e_greedy=0.9,
                       hidden_layers=[10, 10],
-                      replace_target_iter=100,
-                      memory_size=1000,
+                      replace_target_iter=200,
+                      memory_size=3000,
                       # output_graph=True
                       )
     env.after(100, run_maze)