我是靠谱客的博主 慈祥秋天,最近开发中收集的这篇文章主要介绍DQN_Continuous_ActionQ-learning for Continuous Actions,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

文章目录

  • Q-learning for Continuous Actions
    • Solution1--sample action
    • Solution2--gradient ascend
    • Solution3--design a network
    • Solution4--Don't use Q-learning

Q-learning for Continuous Actions

Q:Q-learning相比于policy gradient based方法为什么训练起来效果更好,更平稳?

A:只要能够 estimate 出Q-function,就保证可以 improve 对应的 policy。而因为 estimate Q-function 作为一个回归问题,一般情况下只需要关注 regression 的 loss 有没有下降,就知道 model learn 的好不好。所以 estimate Q-function 相较于 learn 一个 policy 是比较容易的。

Solution1–sample action

随机sample出N个可能的action,然后和discrete action space 一样操作就好了

Solution2–gradient ascend

将action看为我们的变量,使用gradient ascend方法去update action对应的Q-value。

Solution3–design a network

img
  • 产生的∑保证了其正定性,因此上式的第一项恒为负值,只需令 a = μ ( s ) a=μ(s) a=μ(s)​ 就可以确定Q值最大

Solution4–Don’t use Q-learning

img

结合 policy-based 的方法 PPO 和 value-based 的方法 Q-learning,就是 actor-critic 算法。

最后

以上就是慈祥秋天为你收集整理的DQN_Continuous_ActionQ-learning for Continuous Actions的全部内容,希望文章能够帮你解决DQN_Continuous_ActionQ-learning for Continuous Actions所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(30)

评论列表共有 0 条评论

立即
投稿
返回
顶部