DQN_Continuous_ActionQ-learning for Continuous Actions

62 阅读 0 评论 41 点赞

我是靠谱客的博主慈祥秋天，这篇文章主要介绍DQN_Continuous_ActionQ-learning for Continuous Actions，现在分享给大家，希望可以做个参考。

文章目录

Q-learning for Continuous Actions
- Solution1--sample action
- Solution2--gradient ascend
- Solution3--design a network
- Solution4--Don't use Q-learning

Q-learning for Continuous Actions

Q：Q-learning相比于policy gradient based方法为什么训练起来效果更好，更平稳？

A：只要能够 estimate 出Q-function，就保证可以 improve 对应的 policy。而因为 estimate Q-function 作为一个回归问题，一般情况下只需要关注 regression 的 loss 有没有下降，就知道 model learn 的好不好。所以 estimate Q-function 相较于 learn 一个 policy 是比较容易的。

Solution1–sample action

随机sample出N个可能的action，然后和discrete action space 一样操作就好了

Solution2–gradient ascend

将action看为我们的变量，使用gradient ascend方法去update action对应的Q-value。

Solution3–design a network

产生的∑保证了其正定性，因此上式的第一项恒为负值，只需令 $a = μ (s)$ 就可以确定Q值最大

Solution4–Don’t use Q-learning

结合 policy-based 的方法 PPO 和 value-based 的方法 Q-learning，就是 actor-critic 算法。

最后

以上就是慈祥秋天最近收集整理的关于DQN_Continuous_ActionQ-learning for Continuous Actions的全部内容，更多相关DQN_Continuous_ActionQ-learning内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(41)

本文分类：RL算法
浏览次数：62 次浏览
发布日期：2023-09-12 21:10:22
本文链接：https://www.kaopuke.com/article/k-p-k_14_uzo_6_f1_13_z_14_1.html

相关文章

control 学习笔记

DQN 原理（二）：理解 DQN 中的“Q”

DQN 原理（二）：理解 DQN 中的“Q”

RL（十四）深度确定性策略梯度算法

RL（十四）深度确定性策略梯度算法

python 神经网络可以输出连续值_sklearn中的多输出神经网络

python 神经网络可以输出连续值_sklearn中的多输出神经网络

DQN_Continuous_ActionQ-learning for Continuous Actions

DQN_Continuous_ActionQ-learning for Continuous Actions

从零实践强化学习之基于策略梯度求解RL(PARL)随机策略与策略梯度PolicyGradeint算法公式推导

从零实践强化学习之基于策略梯度求解RL(PARL)随机策略与策略梯度PolicyGradeint算法公式推导

python 神经网络可以输出连续值_python – 神经网络生成的输出平均值不正确

python 神经网络可以输出连续值_python – 神经网络生成的输出平均值不正确

Nature DQN为什么会存在过估计？

Nature DQN为什么会存在过估计？

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部