2023年09月归档_精明白猫的博客_电脑常识,PHP编程,云主机,建站经验,c++,paddle,1802908-05-9领域博主

Paddle强化学习从入门到实践（Day5）：连续动作空间的求解离散空间和连续空间DDPG算法代码与实践结果

离散空间和连续空间之前我们做出的决策都是基于离散状态的，简单来说是类似于在做“选择题”。而连续的动作，我们输出的将不是某个动作，而是更加细致的动作的程度，类比深度学习的分类任务与回归任务。当然，具体选何种模型可以根据具体情况灵活选择，有时离散动作和连续动作之间是可以灵活转换的。选择回归模型，那么意味着输出动作种类是无限多的，因此为了减少不确定性，使用连续动作输出的模型时，使用的是确定性策略，即同样的输入会得到同样的输出，而随即策略是有一定的概率得到不同的输出结果的。用于连续动作输出的值我

paddle 2023-09-12 154 点赞 2 评论 233 浏览

精明白猫

Paddle强化学习从入门到实践（Day5）：连续动作空间的求解离散空间和连续空间DDPG算法代码与实践结果

他的专栏

他的归档

热门文章

精明白猫

Paddle强化学习从入门到实践 （Day5）：连续动作空间的求解离散空间和连续空间DDPG算法代码与实践结果

他的专栏

他的归档

热门文章

Paddle强化学习从入门到实践（Day5）：连续动作空间的求解离散空间和连续空间DDPG算法代码与实践结果