RL(十四)深度确定性策略梯度算法
前面我们讲了深度强化学习,虽然强化学习和深度学习得到了一个很好的结合,但是他们在实际的使用中还是有一些限制的,比如算法模型容易过估计、无法处理连续动作控制任务。尤其是无法使用连续动作这个缺点,极大的限制了DQN的使用。所以本节就来学习可以处理连续动作的深度确定性策略梯度算法(DDPG)。1、背景介绍在2014年首次提出了确定性策略梯度算法,并证明了该算法对连续动作任务的有效性。该算法在策略梯度...