概述
DQN算法以及之前的种种改进都是面向离散的action的,DQN算法没有办法面向连续的action,因为Q值更新的时候要用到求最大的action。
本来DQN主要是输出Q值的,aciton是通过argmax顺便实现的,但是现在NAF需要用神经网络输出了,那么就是同时输出Q 和 a。
基本的idea就是引入了Advantage函数A(s,a),也就是每一个动作在特定状态下的优劣。
P为正
上式是A的矩阵表示,也就是一个二次型。其中x是状态,u是动作,mu是神经网络的输出动作。
那么令,也就是
即
后面十分复杂, 还是直接看别人的文章吧
https://zhuanlan.zhihu.com/p/21609472?refer=intelligentunit
不过要解释下u 和 μ [不过我还没看懂]
最后
以上就是爱笑白猫为你收集整理的深度强化学习中的NAF算法-连续控制(对DQN的改进)的全部内容,希望文章能够帮你解决深度强化学习中的NAF算法-连续控制(对DQN的改进)所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复