RL（十四）深度确定性策略梯度算法

69 阅读 0 评论 46 点赞

我是靠谱客的博主欢喜八宝粥，这篇文章主要介绍RL（十四）深度确定性策略梯度算法，现在分享给大家，希望可以做个参考。

前面我们讲了深度强化学习，虽然强化学习和深度学习得到了一个很好的结合，但是他们在实际的使用中还是有一些限制的，比如算法模型容易过估计、无法处理连续动作控制任务。尤其是无法使用连续动作这个缺点，极大的限制了DQN的使用。所以本节就来学习可以处理连续动作的深度确定性策略梯度算法（DDPG）。

1、背景介绍

在2014年首次提出了确定性策略梯度算法，并证明了该算法对连续动作任务的有效性。该算法在策略梯度算法的基础上，算法模拟的输入为状态空间，输出不再是每个动作的概率，而是该状态空间对应的具体动作。
接着，TP Lillicrap等利用DPG算法能够解决高维连续动作空间的优点，同时结合DQN算法能够把高维的状态空间作为输入的优点，提出基于演员-评论家框架的DDPG算法。

下面按着策略梯度、确定性策略梯度、深度确定性策略梯度来依次讲解。

1.1确定性策略梯度（DPG）

前面我们讲过策略梯度，所以这里直接从确定性策略梯度开始学习。
策略梯度算法的最大缺点就是策略评估通常效率比较低下：通过策略梯度算法学习得到的随机策略后，每一个时间步个体需要根据该最优策略梯度概率分布函数进行动作采样，从而获得具体的动作值，而针对每一时间步个体对高维的动作空间进行采样将会耗费大量的计算资源。

之前一直以为确定性的策略梯度算法是不存在的，直到后来D.Silver通过严密的数学推导证明确定性策略梯度算法是存在的。