文章目录
- Q-learning for Continuous Actions
- Solution1--sample action
- Solution2--gradient ascend
- Solution3--design a network
- Solution4--Don't use Q-learning
Q-learning for Continuous Actions
Q:Q-learning相比于policy gradient based方法为什么训练起来效果更好,更平稳?
A:只要能够 estimate 出Q-function,就保证可以 improve 对应的 policy。而因为 estimate Q-function 作为一个回归问题,一般情况下只需要关注 regression 的 loss 有没有下降,就知道 model learn 的好不好。所以 estimate Q-function 相较于 learn 一个 policy 是比较容易的。
Solution1–sample action
随机sample出N个可能的action,然后和discrete action space 一样操作就好了
Solution2–gradient ascend
将action看为我们的变量,使用gradient ascend方法去update action对应的Q-value。
Solution3–design a network

- 产生的∑保证了其正定性,因此上式的第一项恒为负值,只需令 a = μ ( s ) a=μ(s) a=μ(s) 就可以确定Q值最大
Solution4–Don’t use Q-learning

结合 policy-based 的方法 PPO 和 value-based 的方法 Q-learning,就是 actor-critic 算法。
最后
以上就是慈祥秋天最近收集整理的关于DQN_Continuous_ActionQ-learning for Continuous Actions的全部内容,更多相关DQN_Continuous_ActionQ-learning内容请搜索靠谱客的其他文章。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复