config/config_iqld_real.ini

[MODEL_CONFIG]
max_grad_norm = 40
gamma = 0.99
lr_init = 1e-4
lr_decay = constant
epsilon_init = 1.0
epsilon_min = 0.01
epsilon_decay = linear
epsilon_ratio = 0.5
num_fc = 128
num_h = 64
batch_size = 20
buffer_size = 1000
reward_norm = 1.0
reward_clip = 2.0

[TRAIN_CONFIG]
total_step = 1e6
test_interval = 2e4
log_interval = 1e4

[ENV_CONFIG]
clip_wave = 2.0
clip_wait = 2.0
control_interval_sec = 5
; agent is greedy, iqll, iqld, ia2c, ma2c, a2c.
agent = iqld
; coop discount is used to discount the neighbors' impact
coop_gamma = 0.9
data_path = ./real_net/data/
episode_length_sec = 3600
; the normailization is based on typical values in sim
norm_wave = 5.0
norm_wait = 30.0
coef_wait = 0
flow_rate = 325
; objective is chosen from queue, wait, hybrid
objective = queue
scenario = real_net
seed = 42
test_seeds = 10000,20000,30000
yellow_interval_sec = 2