强化学习——连续控制前言连续控制
文章目录前言连续控制DPGDPG的优化目标On-Policy DPGOff-Policy DPG前言本文总结《深度强化学习》中连续控制章节的内容,如有错误,欢迎指出。连续控制前面几篇博客总结的强化学习方法,动作空间都是离散有限的。但动作空间不一定总是离散的,也可能是连续的,例如驾驶车辆,汽车转向角度的动作空间就是连续的。针对上述问题,一个可行的解决方案是将动作空间离散化,除此之外,可以直接使用连续控制相关的强化学习方法。本文将总结确定策略梯度算法(DPG)。DPGDPG属于策略学习的方法。具