2023年06月归档_专一飞机的博客_Photoshop教程,PHP编程,python编程,Linux系统,AJAX异步,Windows xp,JavaScript,深度学习,Other领域博主

强化学习——连续控制前言连续控制

文章目录前言连续控制DPGDPG的优化目标On-Policy DPGOff-Policy DPG前言本文总结《深度强化学习》中连续控制章节的内容，如有错误，欢迎指出。连续控制前面几篇博客总结的强化学习方法，动作空间都是离散有限的。但动作空间不一定总是离散的，也可能是连续的，例如驾驶车辆，汽车转向角度的动作空间就是连续的。针对上述问题，一个可行的解决方案是将动作空间离散化，除此之外，可以直接使用连续控制相关的强化学习方法。本文将总结确定策略梯度算法（DPG）。DPGDPG属于策略学习的方法。具

深度学习 2023-06-07 225 点赞 3 评论 340 浏览

专一飞机

强化学习——连续控制前言连续控制

他的专栏

他的归档

热门文章