Discrete VS Continuous ControlDiscrete VS Continuous Control

318 阅读 0 评论 210 点赞

我是靠谱客的博主威武手机，这篇文章主要介绍Discrete VS Continuous ControlDiscrete VS Continuous Control，现在分享给大家，希望可以做个参考。

Discrete VS Continuous Control

1.连续动作离散化

在这里插入图片描述

离散动作空间DQN，使用DQN近似 $Q_{pi}$ ，输出每个动作对应的价值。

在这里插入图片描述

策略网络则输出动作的概率分布。

在这里插入图片描述

当连续动作维度较小时，可以使用离散化。

在这里插入图片描述

动作的个数随纬度指数增长。

2.Deterministic Policy Gradient (DPG)

在这里插入图片描述

使用确定性策略网络近似 $π$ ，这里 $π$ 输出的是一个确定的动作，而不是概率分布。

价值网络的更新采用TD 算法。

在这里插入图片描述

在这里插入图片描述

改进 $θ$ 可以让critic 对action评分更高，因此可以对 $q$ 的 $θ$ 求梯度。

在这里插入图片描述

在这里插入图片描述

价值网络在使用TD target时会出现bootstrapping，导致高估问题。

在这里插入图片描述

因此可以采用target network来计算 $y_t$ ，分别用target value network表示 $q_{t+1}$ ，target policy network 表示 $a_{t+1}^{'}$

在这里插入图片描述

在这里插入图片描述

target network 的参数更新可以采用加权平均。

一些tricks

在这里插入图片描述

2.1 随机策略梯度和确定策略梯度两者比较

在这里插入图片描述

3.Stochastic Policy for Continuous Control

在这里插入图片描述

将每一维的动作的概率分布使用正态分布近似。

在这里插入图片描述

这样动作的概率分布就是对应正态分布的乘积。

在这里插入图片描述

这里我们采用两个neural network 近似 $u$ 和 $sigma^2$

在这里插入图片描述

在这里插入图片描述

这里我们就可以得到每维度的动作概率分布 $a_i$

3.1 Training Policy Network

在这里插入图片描述

取对数进行变形。

在这里插入图片描述

我们同时构造一个辅助网络表示上面的式子。

在这里插入图片描述

辅助网络输出的是一个标量，输入是 $u$ 和 $ρ$ 还有动作。

在这里插入图片描述

通过反向传播，我们可以计算 $f$ 对于 $θ$ 的梯度。

在这里插入图片描述

在这里插入图片描述

因为 $f$ 是 $l n$ 加上一个常数，那么显然 $ln$ 对于 $θ$ 的偏导等于 $f$ 对其的偏导。

在这里插入图片描述

在这里插入图片描述

如果采用AC网络的话。

采用Mente Carlo 近似便可以更新策略网络 $θ$ 。

然后用TD 算法更新value network。

在这里插入图片描述

如果采用REINFORCE的话，怎么通过一次轨迹计算 $u_t$ ，然后Mente Carlo 近似 $Q_{pi}$

3.2 Summary

在这里插入图片描述

在这里插入图片描述

最后

以上就是威武手机最近收集整理的关于Discrete VS Continuous ControlDiscrete VS Continuous Control的全部内容，更多相关Discrete内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(210)

本文分类：人工智能
浏览次数：318 次浏览
发布日期：2023-09-12 21:05:21
本文链接：https://www.kaopuke.com/article/k-p-k_14_uzo_6_f1_13_z_14_w.html

相关文章

【撕书系列DRL】CH2-动作空间设计动作空间常见类型动作空间设计原则

【撕书系列DRL】CH2-动作空间设计动作空间常见类型动作空间设计原则

Paddle强化学习从入门到实践（Day5）：连续动作空间的求解离散空间和连续空间DDPG算法代码与实践结果

Paddle强化学习从入门到实践（Day5）：连续动作空间的求解离散空间和连续空间DDPG算法代码与实践结果

自抗扰控制入门之TD篇（纯小白入门向和TD数学表达式的推导）一：所用到的两篇参考论文和相关博客二：DT的基本数学表达式三：对TD数学表达式进行说明和讲解（从零讲起）

自抗扰控制入门之TD篇（纯小白入门向和TD数学表达式的推导）一：所用到的两篇参考论文和相关博客二：DT的基本数学表达式三：对TD数学表达式进行说明和讲解（从零讲起）

强化深度学习task06连续动作空间和DDPG

强化深度学习task06连续动作空间和DDPG

Discrete VS Continuous ControlDiscrete VS Continuous Control

Discrete VS Continuous ControlDiscrete VS Continuous Control

control 学习笔记

DQN 原理（二）：理解 DQN 中的“Q”

DQN 原理（二）：理解 DQN 中的“Q”

RL（十四）深度确定性策略梯度算法

RL（十四）深度确定性策略梯度算法

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部