我是靠谱客的博主 慈祥秋天,这篇文章主要介绍DQN_Continuous_ActionQ-learning for Continuous Actions,现在分享给大家,希望可以做个参考。

文章目录

  • Q-learning for Continuous Actions
    • Solution1--sample action
    • Solution2--gradient ascend
    • Solution3--design a network
    • Solution4--Don't use Q-learning

Q-learning for Continuous Actions

Q:Q-learning相比于policy gradient based方法为什么训练起来效果更好,更平稳?

A:只要能够 estimate 出Q-function,就保证可以 improve 对应的 policy。而因为 estimate Q-function 作为一个回归问题,一般情况下只需要关注 regression 的 loss 有没有下降,就知道 model learn 的好不好。所以 estimate Q-function 相较于 learn 一个 policy 是比较容易的。

Solution1–sample action

随机sample出N个可能的action,然后和discrete action space 一样操作就好了

Solution2–gradient ascend

将action看为我们的变量,使用gradient ascend方法去update action对应的Q-value。

Solution3–design a network

img
  • 产生的∑保证了其正定性,因此上式的第一项恒为负值,只需令 a = μ ( s ) a=μ(s) a=μ(s)​ 就可以确定Q值最大

Solution4–Don’t use Q-learning

img

结合 policy-based 的方法 PPO 和 value-based 的方法 Q-learning,就是 actor-critic 算法。

最后

以上就是慈祥秋天最近收集整理的关于DQN_Continuous_ActionQ-learning for Continuous Actions的全部内容,更多相关DQN_Continuous_ActionQ-learning内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(41)

评论列表共有 0 条评论

立即
投稿
返回
顶部