2023年09月归档_欢喜八宝粥的博客_Photoshop教程,平板电脑,Window服务器,JavaScript,Windows 7,C语言,Other,hive领域博主

RL（十四）深度确定性策略梯度算法

前面我们讲了深度强化学习，虽然强化学习和深度学习得到了一个很好的结合，但是他们在实际的使用中还是有一些限制的，比如算法模型容易过估计、无法处理连续动作控制任务。尤其是无法使用连续动作这个缺点，极大的限制了DQN的使用。所以本节就来学习可以处理连续动作的深度确定性策略梯度算法（DDPG）。1、背景介绍在2014年首次提出了确定性策略梯度算法，并证明了该算法对连续动作任务的有效性。该算法在策略梯度...

Other 2023-09-12 202 点赞 3 评论 306 浏览

欢喜八宝粥

RL（十四）深度确定性策略梯度算法

他的专栏

他的归档

热门文章