Chapter 7: Policy-based methods

ebilgin · ebilgin · commit f075f1ce815e · 2020-12-07T03:09:44.000-08:00
diff --git a/Chapter07/a2c_agent.py b/Chapter07/a2c_agent.py
@@ -0,0 +1,32 @@
+import argparse
+import pprint
+from ray import tune
+import ray
+from ray.rllib.agents.a3c.a2c import (
+    A2C_DEFAULT_CONFIG as DEFAULT_CONFIG,
+    A2CTrainer)
+
+
+if __name__ == "__main__":
+    trainer = A2CTrainer
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--env',
+                        help='Gym env name.')
+    args = parser.parse_args()
+    config = DEFAULT_CONFIG.copy()
+    config_update = {
+                 "env": args.env,
+                 "num_gpus": 1,
+                 "num_workers": 50,
+                 "evaluation_num_workers": 10,
+                 "evaluation_interval": 1,
+                 "use_gae": False
+            }
+    config.update(config_update)
+    pp = pprint.PrettyPrinter(indent=4)
+    pp.pprint(config)
+    ray.init()
+    tune.run(trainer,
+             stop={"timesteps_total": 2000000},
+             config=config
+             )
diff --git a/Chapter07/a2c_agent_gae.py b/Chapter07/a2c_agent_gae.py
@@ -0,0 +1,32 @@
+import argparse
+import pprint
+from ray import tune
+import ray
+from ray.rllib.agents.a3c.a2c import (
+    A2C_DEFAULT_CONFIG as DEFAULT_CONFIG,
+    A2CTrainer)
+
+
+if __name__ == "__main__":
+    trainer = A2CTrainer
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--env',
+                        help='Gym env name.')
+    args = parser.parse_args()
+    config = DEFAULT_CONFIG.copy()
+    config_update = {
+                 "env": args.env,
+                 "num_gpus": 1,
+                 "num_workers": 50,
+                 "evaluation_num_workers": 10,
+                 "evaluation_interval": 1,
+                 "use_gae": True
+            }
+    config.update(config_update)
+    pp = pprint.PrettyPrinter(indent=4)
+    pp.pprint(config)
+    ray.init()
+    tune.run(trainer,
+             stop={"timesteps_total": 2000000},
+             config=config
+             )
diff --git a/Chapter07/a3c_agent.py b/Chapter07/a3c_agent.py
@@ -0,0 +1,31 @@
+import argparse
+import pprint
+from ray import tune
+import ray
+from ray.rllib.agents.a3c.a3c import (
+    DEFAULT_CONFIG,
+    A3CTrainer as trainer)
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--env',
+                        help='Gym env name.')
+    args = parser.parse_args()
+    config = DEFAULT_CONFIG.copy()
+    config_update = {
+                 "env": args.env,
+                 "num_gpus": 1,
+                 "num_workers": 50,
+                 "evaluation_num_workers": 10,
+                 "evaluation_interval": 1,
+                 "use_gae": False
+            }
+    config.update(config_update)
+    pp = pprint.PrettyPrinter(indent=4)
+    pp.pprint(config)
+    ray.init()
+    tune.run(trainer,
+             stop={"timesteps_total": 2000000},
+             config=config
+             )
diff --git a/Chapter07/a3c_agent_gae.py b/Chapter07/a3c_agent_gae.py
@@ -0,0 +1,32 @@
+import argparse
+import pprint
+from ray import tune
+import ray
+from ray.rllib.agents.a3c.a3c import (
+    DEFAULT_CONFIG,
+    A3CTrainer)
+
+
+if __name__ == "__main__":
+    trainer = A3CTrainer
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--env',
+                        help='Gym env name.')
+    args = parser.parse_args()
+    config = DEFAULT_CONFIG.copy()
+    config_update = {
+                 "env": args.env,
+                 "num_gpus": 1,
+                 "num_workers": 50,
+                 "evaluation_num_workers": 10,
+                 "evaluation_interval": 1,
+                 "use_gae": True
+            }
+    config.update(config_update)
+    pp = pprint.PrettyPrinter(indent=4)
+    pp.pprint(config)
+    ray.init()
+    tune.run(trainer,
+             stop={"timesteps_total": 2000000},
+             config=config
+             )
diff --git a/Chapter07/apex_ddpg_agent.py b/Chapter07/apex_ddpg_agent.py
@@ -0,0 +1,30 @@
+import argparse
+import pprint
+from ray import tune
+import ray
+from ray.rllib.agents.ddpg.apex import (
+    APEX_DDPG_DEFAULT_CONFIG as DEFAULT_CONFIG,
+    ApexDDPGTrainer as trainer)
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--env',
+                        help='Gym env name.')
+    args = parser.parse_args()
+    config = DEFAULT_CONFIG.copy()
+    config_update = {
+                 "env": args.env,
+                 "num_gpus": 1,
+                 "num_workers": 50,
+                 "evaluation_num_workers": 10,
+                 "evaluation_interval": 1
+            }
+    config.update(config_update)
+    pp = pprint.PrettyPrinter(indent=4)
+    pp.pprint(config)
+    ray.init()
+    tune.run(trainer,
+             stop={"timesteps_total": 2000000},
+             config=config
+             )
diff --git a/Chapter07/ddpg_agent.py b/Chapter07/ddpg_agent.py
@@ -0,0 +1,30 @@
+import argparse
+import pprint
+from ray import tune
+import ray
+from ray.rllib.agents.ddpg.ddpg import(
+    DEFAULT_CONFIG,
+    DDPGTrainer as trainer)
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--env',
+                        help='Gym env name.')
+    args = parser.parse_args()
+    config = DEFAULT_CONFIG.copy()
+    config_update = {
+                 "env": args.env,
+                 "num_gpus": 1,
+                 "num_workers": 50,
+                 "evaluation_num_workers": 10,
+                 "evaluation_interval": 1
+            }
+    config.update(config_update)
+    pp = pprint.PrettyPrinter(indent=4)
+    pp.pprint(config)
+    ray.init()
+    tune.run(trainer,
+             stop={"timesteps_total": 2000000},
+             config=config
+             )
diff --git a/Chapter07/impala_agent.py b/Chapter07/impala_agent.py
@@ -0,0 +1,30 @@
+import argparse
+import pprint
+from ray import tune
+import ray
+from ray.rllib.agents.impala.impala import (
+    DEFAULT_CONFIG,
+    ImpalaTrainer as trainer)
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--env',
+                        help='Gym env name.')
+    args = parser.parse_args()
+    config = DEFAULT_CONFIG.copy()
+    config_update = {
+                 "env": args.env,
+                 "num_gpus": 1,
+                 "num_workers": 50,
+                 "evaluation_num_workers": 10,
+                 "evaluation_interval": 1
+            }
+    config.update(config_update)
+    pp = pprint.PrettyPrinter(indent=4)
+    pp.pprint(config)
+    ray.init()
+    tune.run(trainer,
+             stop={"timesteps_total": 2000000},
+             config=config
+             )
diff --git a/Chapter07/pg_agent.py b/Chapter07/pg_agent.py
@@ -0,0 +1,30 @@
+import argparse
+import pprint
+from ray import tune
+import ray
+from ray.rllib.agents.pg.pg import (
+    DEFAULT_CONFIG,
+    PGTrainer as trainer)
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--env',
+                        help='Gym env name.')
+    args = parser.parse_args()
+    config = DEFAULT_CONFIG.copy()
+    config_update = {
+                 "env": args.env,
+                 "num_gpus": 1,
+                 "num_workers": 50,
+                 "evaluation_num_workers": 10,
+                 "evaluation_interval": 1
+            }
+    config.update(config_update)
+    pp = pprint.PrettyPrinter(indent=4)
+    pp.pprint(config)
+    ray.init()
+    tune.run(trainer,
+             stop={"timesteps_total": 2000000},
+             config=config
+             )
diff --git a/Chapter07/ppo_agent.py b/Chapter07/ppo_agent.py
@@ -0,0 +1,30 @@
+import argparse
+import pprint
+from ray import tune
+import ray
+from ray.rllib.agents.ppo.ppo import (
+    DEFAULT_CONFIG,
+    PPOTrainer as trainer)
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--env',
+                        help='Gym env name.')
+    args = parser.parse_args()
+    config = DEFAULT_CONFIG.copy()
+    config_update = {
+                 "env": args.env,
+                 "num_gpus": 1,
+                 "num_workers": 50,
+                 "evaluation_num_workers": 10,
+                 "evaluation_interval": 1
+            }
+    config.update(config_update)
+    pp = pprint.PrettyPrinter(indent=4)
+    pp.pprint(config)
+    ray.init()
+    tune.run(trainer,
+             stop={"timesteps_total": 2000000},
+             config=config
+             )
diff --git a/Chapter07/sac_agent.py b/Chapter07/sac_agent.py
@@ -0,0 +1,30 @@
+import argparse
+import pprint
+from ray import tune
+import ray
+from ray.rllib.agents.sac.sac import (
+    DEFAULT_CONFIG,
+    SACTrainer as trainer)
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--env',
+                        help='Gym env name.')
+    args = parser.parse_args()
+    config = DEFAULT_CONFIG.copy()
+    config_update = {
+                 "env": args.env,
+                 "num_gpus": 1,
+                 "num_workers": 50,
+                 "evaluation_num_workers": 10,
+                 "evaluation_interval": 1
+            }
+    config.update(config_update)
+    pp = pprint.PrettyPrinter(indent=4)
+    pp.pprint(config)
+    ray.init()
+    tune.run(trainer,
+             stop={"timesteps_total": 2000000},
+             config=config
+             )
diff --git a/Chapter07/td3_agent.py b/Chapter07/td3_agent.py
@@ -0,0 +1,30 @@
+import argparse
+import pprint
+from ray import tune
+import ray
+from ray.rllib.agents.ddpg.td3 import (
+    TD3_DEFAULT_CONFIG as DEFAULT_CONFIG,
+    TD3Trainer as trainer)
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--env',
+                        help='Gym env name.')
+    args = parser.parse_args()
+    config = DEFAULT_CONFIG.copy()
+    config_update = {
+                 "env": args.env,
+                 "num_gpus": 1,
+                 "num_workers": 50,
+                 "evaluation_num_workers": 10,
+                 "evaluation_interval": 1
+            }
+    config.update(config_update)
+    pp = pprint.PrettyPrinter(indent=4)
+    pp.pprint(config)
+    ray.init()
+    tune.run(trainer,
+             stop={"timesteps_total": 2000000},
+             config=config
+             )