自觉西牛

文章
4
资源
0
加入时间
2年10月18天

【学习强化学习】八、连续动作下的DQN设计参考资料思路1思路2思路34. 练习

文章目录参考资料思路1思路2思路34. 练习1. Q-learning相比于policy gradient based方法为什么训练起来效果更好,更平稳?参考资料https://datawhalechina.github.io/easy-rl/#/chapter8/chapter8思路1a=arg⁡max⁡aQ(s,a)a=\arg \max _{a} Q(s, a) a=argamax​Q(s,a)假设a是离散的,即a的可能性都是有限的。我们可以把每一个可能的动作都带到 Q 里面算它的 Q