深度强化学习中的NAF算法-连续控制（对DQN的改进）

115 阅读 0 评论 76 点赞

我是靠谱客的博主爱笑白猫，最近开发中收集的这篇文章主要介绍深度强化学习中的NAF算法-连续控制（对DQN的改进），觉得挺不错的，现在分享给大家，希望可以做个参考。

DQN算法以及之前的种种改进都是面向离散的action的，DQN算法没有办法面向连续的action，因为Q值更新的时候要用到求最大的action。
本来DQN主要是输出Q值的，aciton是通过argmax顺便实现的，但是现在NAF需要用神经网络输出了，那么就是同时输出Q 和 a。

基本的idea就是引入了Advantage函数A（s,a），也就是每一个动作在特定状态下的优劣。

P为正

上式是A的矩阵表示，也就是一个二次型。其中x是状态，u是动作，mu是神经网络的输出动作。

那么令,也就是

即

后面十分复杂，还是直接看别人的文章吧

https://zhuanlan.zhihu.com/p/21609472?refer=intelligentunit

不过要解释下u 和 μ [不过我还没看懂]

如果觉得靠谱客网站的内容还不错，欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。