精明白猫

文章
3
资源
0
加入时间
4年1月25天

Paddle强化学习从入门到实践 (Day5):连续动作空间的求解离散空间和连续空间DDPG算法代码与实践结果

离散空间和连续空间之前我们做出的决策都是基于离散状态的,简单来说是类似于在做“选择题”。而连续的动作,我们输出的将不是某个动作,而是更加细致的动作的程度,类比深度学习的分类任务与回归任务。当然,具体选何种模型可以根据具体情况灵活选择,有时离散动作和连续动作之间是可以灵活转换的。选择回归模型,那么意味着输出动作种类是无限多的,因此为了减少不确定性,使用连续动作输出的模型时,使用的是确定性策略,即同样的输入会得到同样的输出,而随即策略是有一定的概率得到不同的输出结果的。用于连续动作输出的值我