fixed divide by zero error

MingChaoSun · Feb 23, 2017 · 6be19f9 · 6be19f9
1 parent f3a883c
commit 6be19f9
Show file tree

Hide file tree

Showing 2 changed files with 2 additions and 2 deletions.
diff --git a/reinforcement_learning/actor_critic.py b/reinforcement_learning/actor_critic.py
@@ -69,7 +69,7 @@ def finish_episode():
         R = r + args.gamma * R
         rewards.insert(0, R)
     rewards = torch.Tensor(rewards)
-    rewards = (rewards - rewards.mean()) / rewards.std()
+    rewards = (rewards - rewards.mean()) / (rewards.std() + np.finfo(np.float32).eps)
     for (action, value), r in zip(saved_actions, rewards):
         action.reinforce(r - value.data.squeeze())
         value_loss += F.smooth_l1_loss(value, Variable(torch.Tensor([r])))

diff --git a/reinforcement_learning/reinforce.py b/reinforcement_learning/reinforce.py
@@ -65,7 +65,7 @@ def finish_episode():
         R = r + args.gamma * R
         rewards.insert(0, R)
     rewards = torch.Tensor(rewards)
-    rewards = (rewards - rewards.mean()) / rewards.std()
+    rewards = (rewards - rewards.mean()) / (rewards.std() + np.finfo(np.float32).eps)
     for action, r in zip(model.saved_actions, rewards):
         action.reinforce(r)
     optimizer.zero_grad()