[rllib] Fix centralized critic example to use right policy (ray-proje…

…ct#8341) * update * update
tomzhang · May 7, 2020 · 30db920 · 30db920
1 parent 325aec8
commit 30db920
Showing 1 changed file with 3 additions and 4 deletions.
diff --git a/rllib/examples/centralized_critic.py b/rllib/examples/centralized_critic.py
@@ -142,7 +142,6 @@ def loss_with_central_critic(policy, model, dist_class, train_batch):
         train_batch[OPPONENT_ACTION])
 
     policy.loss_obj = PPOLoss(
-        policy.action_space,
         dist_class,
         model,
         train_batch[Postprocessing.VALUE_TARGETS],
@@ -159,8 +158,7 @@ def loss_with_central_critic(policy, model, dist_class, train_batch):
         clip_param=policy.config["clip_param"],
         vf_clip_param=policy.config["vf_clip_param"],
         vf_loss_coeff=policy.config["vf_loss_coeff"],
-        use_gae=policy.config["use_gae"],
-        model_config=policy.config["model"])
+        use_gae=policy.config["use_gae"])
 
     return policy.loss_obj.loss
 
@@ -193,7 +191,8 @@ def central_vf_stats(policy, train_batch, grads):
         CentralizedValueMixin
     ])
 
-CCTrainer = PPOTrainer.with_updates(name="CCPPOTrainer", default_policy=CCPPO)
+CCTrainer = PPOTrainer.with_updates(
+    name="CCPPOTrainer", default_policy=CCPPO, get_policy_class=None)
 
 if __name__ == "__main__":
     args = parser.parse_args()