我是靠谱客的博主 威武手机,这篇文章主要介绍Discrete VS Continuous ControlDiscrete VS Continuous Control,现在分享给大家,希望可以做个参考。

Discrete VS Continuous Control

1.连续动作离散化

在这里插入图片描述

离散动作空间DQN,使用DQN近似 Q π Q_{pi} Qπ,输出每个动作对应的价值。


在这里插入图片描述

策略网络则输出动作的概率分布。


在这里插入图片描述

当连续动作维度较小时,可以使用离散化。

在这里插入图片描述

动作的个数随纬度指数增长。


2.Deterministic Policy Gradient (DPG)

在这里插入图片描述
在这里插入图片描述

使用确定性策略网络近似 π pi π ,这里 π pi π 输出的是一个确定的动作,而不是概率分布。


价值网络的更新采用TD 算法。

在这里插入图片描述


在这里插入图片描述
在这里插入图片描述

改进 θ theta θ 可以让critic 对action评分更高,因此可以对 q q q θ theta θ 求梯度。

在这里插入图片描述


在这里插入图片描述

价值网络在使用TD target时会出现bootstrapping,导致高估问题。


在这里插入图片描述

因此可以采用target network来计算 y t y_t yt,分别用target value network表示 q t + 1 q_{t+1} qt+1 ,target policy network 表示 a t + 1 ′ a_{t+1}^{'} at+1

在这里插入图片描述


在这里插入图片描述

target network 的参数更新可以采用加权平均。


一些tricks

在这里插入图片描述


2.1 随机策略梯度和确定策略梯度两者比较

在这里插入图片描述

3.Stochastic Policy for Continuous Control

在这里插入图片描述

将每一维的动作的概率分布使用正态分布近似。

在这里插入图片描述

这样动作的概率分布就是对应正态分布的乘积。


在这里插入图片描述

这里我们采用两个neural network 近似 u u u ln ⁡ σ 2 ln sigma^2 lnσ2

在这里插入图片描述


在这里插入图片描述

这里我们就可以得到每维度的动作概率分布 a i a_i ai


3.1 Training Policy Network

在这里插入图片描述

取对数进行变形。

在这里插入图片描述

我们同时构造一个辅助网络表示上面的式子。

在这里插入图片描述

辅助网络输出的是一个标量,输入是 u u u ρ rho ρ 还有动作。


在这里插入图片描述

通过反向传播,我们可以计算 f f f对于 θ theta θ的梯度。


在这里插入图片描述


在这里插入图片描述

因为 f f f l n ln ln 加上一个常数,那么显然 ln ⁡ ln ln 对于 θ theta θ的偏导等于 f f f对其的偏导。

在这里插入图片描述


在这里插入图片描述

如果采用AC网络的话。

采用Mente Carlo 近似便可以更新策略网络 θ theta θ

然后用TD 算法更新value network。


在这里插入图片描述

如果采用REINFORCE的话,怎么通过一次轨迹计算 u t u_t ut,然后Mente Carlo 近似 Q π Q_{pi} Qπ


3.2 Summary

在这里插入图片描述

在这里插入图片描述

最后

以上就是威武手机最近收集整理的关于Discrete VS Continuous ControlDiscrete VS Continuous Control的全部内容,更多相关Discrete内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(175)

评论列表共有 0 条评论

立即
投稿
返回
顶部