深度强化学习中的NAF算法-连续控制(对DQN的改进)
DQN算法以及之前的种种改进都是面向离散的action的,DQN算法没有办法面向连续的action,因为Q值更新的时候要用到求最大的action。本来DQN主要是输出Q值的,aciton是通过argmax顺便实现的,但是现在NAF需要用神经网络输出了,那么就是同时输出Q 和 a。基本的idea就是引入了Advantage函数A(s,a),也就是每一个动作在特定状态下的优劣。