称心银耳汤

文章
3
资源
0
加入时间
3年1月18天

DDPG:基于深度强化学习的连续控制(ICLR 2016)摘要引言数学背景算法

摘要我们将“深度Q学习(Deep Q-learning)”成功的基础思想应用于连续动作领域。我们基于确定性策略梯度(Deterministic Policy Gradient,DPG),提出了一种基于演员评论家(Actor-critic),无模型(model-free)的算法,该算法能应用在连续动作空间。我们进一步证明,对于许多任务,算法可以学习“端到端”策略:直接从原始像素输入。引言D...