我是靠谱客的博主 慈祥秋天,最近开发中收集的这篇文章主要介绍DQN_Continuous_ActionQ-learning for Continuous Actions,觉得挺不错的,现在分享给大家,希望可以做个参考。
概述
文章目录
- Q-learning for Continuous Actions
- Solution1--sample action
- Solution2--gradient ascend
- Solution3--design a network
- Solution4--Don't use Q-learning
Q-learning for Continuous Actions
Q:Q-learning相比于policy gradient based方法为什么训练起来效果更好,更平稳?
A:只要能够 estimate 出Q-function,就保证可以 improve 对应的 policy。而因为 estimate Q-function 作为一个回归问题,一般情况下只需要关注 regression 的 loss 有没有下降,就知道 model learn 的好不好。所以 estimate Q-function 相较于 learn 一个 policy 是比较容易的。
Solution1–sample action
随机sample出N个可能的action,然后和discrete action space 一样操作就好了
Solution2–gradient ascend
将action看为我们的变量,使用gradient ascend方法去update action对应的Q-value。
Solution3–design a network
- 产生的∑保证了其正定性,因此上式的第一项恒为负值,只需令 a = μ ( s ) a=μ(s) a=μ(s) 就可以确定Q值最大
Solution4–Don’t use Q-learning
结合 policy-based 的方法 PPO 和 value-based 的方法 Q-learning,就是 actor-critic 算法。
最后
以上就是慈祥秋天为你收集整理的DQN_Continuous_ActionQ-learning for Continuous Actions的全部内容,希望文章能够帮你解决DQN_Continuous_ActionQ-learning for Continuous Actions所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复