$\triangledown \approx \frac{1}{N}\sum\limits^N_{n=1}\sum\limits^{T_n}{t=1}(\sum^{T_n}{t^{'}=t}\gamma^{t^{'}-t }r^n_{t^{'}}-b)\triangledown\log p_\theta(a^n_t|s^n_t)$ 采取sample的方式导致$G^n_t$非常不稳定,有极大的variance,如何估测G的期望值?
- state value function
$V^\pi(s)$ - state-action value function
$Q^{\pi}(s,a)$
-
tips
- the parameters of actor
$\pi(s)$ and critic$V^\pi(s)$ 可以共享一部分浅层网络参数 - use output entropy as regularization for
$\pi(s)$
- the parameters of actor
鸣人影分身,多个worker进行学习
不仅对策略进行打分,并且直接告知应该采取什么行动才是好的