概述
前面我们讲了深度强化学习,虽然强化学习和深度学习得到了一个很好的结合,但是他们在实际的使用中还是有一些限制的,比如算法模型容易过估计、无法处理连续动作控制任务。尤其是无法使用连续动作这个缺点,极大的限制了DQN的使用。所以本节就来学习可以处理连续动作的深度确定性策略梯度算法(DDPG)。
1、背景介绍
在2014年首次提出了确定性策略梯度算法,并证明了该算法对连续动作任务的有效性。该算法在策略梯度算法的基础上,算法模拟的输入为状态空间,输出不再是每个动作的概率,而是该状态空间对应的具体动作。
接着,TP Lillicrap等利用DPG算法能够解决高维连续动作空间的优点,同时结合DQN算法能够把高维的状态空间作为输入的优点,提出基于演员-评论家框架的DDPG算法。
下面按着策略梯度、确定性策略梯度、深度确定性策略梯度来依次讲解。
1.1确定性策略梯度(DPG)
前面我们讲过策略梯度,所以这里直接从确定性策略梯度开始学习。
策略梯度算法的最大缺点就是策略评估通常效率比较低下:通过策略梯度算法学习得到的随机策略后,每一个时间步个体需要根据该最优策略梯度概率分布函数进行动作采样,从而获得具体的动作值,而针对每一时间步个体对高维的动作空间进行采样将会耗费大量的计算资源。
之前一直以为确定性的策略梯度算法是不存在的,直到后来D.Silver通过严密的数学推导证明确定性策略梯度算法是存在的。
最后
以上就是欢喜八宝粥为你收集整理的RL(十四)深度确定性策略梯度算法的全部内容,希望文章能够帮你解决RL(十四)深度确定性策略梯度算法所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复