MARL

多智能体强化学习VDN、QMIX、QTRAN、QPLEX复现，主要参考了pymarl和原始论文提供的源码

main训练伪代码

几个关键概念的作用：

MultiAgentController()：

SMAC()：

ReplayBuffer()：

用于存数据(注意有两种存储方式：1）存transition；2）存episode。根据算法需求选择)
用于sample数据，喂给模型训练
注意：on-policy和off-policy之间的区别。on-policy只能用当前时刻的被改进的policy获取的数据训练，因此训练完成后要清空buffer；off-policy可以使用其他策略（行为策略）采集的数据，不用清空buffer，但可能某些算法需要重要性采样。（MAPPO有些特殊，它是on-policy的算法，但是它可以使用被改进策略某个邻域内的策略所产生的数据训练，可以去看PPO原始论文）

Learner：

学习器，充当replaybuffer和mac的粘合剂，即用某种算法使用buffer中的数据训练mac
注意：在CTDE范式下，Leaner包含mixing net或者critic Net，因为这两个只是用来辅助我们训练q net或者actor net，训练完成后就丢弃了。只需要q net或者actor net做决策

rollout：

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
.idea		.idea
algorithm		algorithm
analyze		analyze
common		common
controller		controller
env		env
model		model
network		network
result		result
test_file		test_file
utils		utils
README.md		README.md
main.py		main.py
matrix_game_test.py		matrix_game_test.py
rollout.py		rollout.py
runner.py		runner.py
test.py		test.py