强化学习补充笔记（TD算法、Q学习算法、SARSA算法、多步TD目标、经验回放、高估问题、对决网络、噪声网络）学习目标：学习内容：

119 阅读 0 评论 79 点赞

我是靠谱客的博主俏皮战斗机，这篇文章主要介绍强化学习补充笔记（TD算法、Q学习算法、SARSA算法、多步TD目标、经验回放、高估问题、对决网络、噪声网络）学习目标：学习内容：，现在分享给大家，希望可以做个参考。

学习目标：

深入了解马尔科夫决策过程(MDP)，包含TD算法、Q学习算法、SARSA算法、多步TD目标、经验回放、高估问题、对决网络、噪声网络。基础部分见：强化学习马尔科夫决策过程（价值迭代、策略迭代、雅克比迭代、蒙特卡洛）

学习内容：

0.基础符号

奖励：一局游戏中从开始到结束的所有奖励 $R_1,...,R_t,...,R_n.$
折扣率： $γ \in [0, 1]$
折扣回报： $U_t=R_t+gamma cdot R_{t+1}+gamma^2cdot R_{t+2}+...+gamma^{n-t}cdot R_{n}$
动作价值函数： $Q_pi(s_t,a_t)=mathbb{E}[U_t|S_t=s_t,A_t=a_t]$
最有动作价值函数：已知 $s_t$ 和 $a_t$ ，不论未来采取什么样的策略 $π$ ，回报 $U_t$ 都不可能超过 $Q_star$ $Q_star(s_t,a_t)=max_pi Q_pi (s_t,a_t), forall s_t in mathcal{S}, a_t in mathcal{A}$

1.时间差分（TD）算法

（1）基础

利用TD训练深度Q网络（DQN），已有四元组 $s_t,a_t,r_t,s_{t+1}>$ 。
已知贝尔曼（Bellman）最优方程：
$underbrace{Q_{star}left(s_t, a_tright)}_{U_t text { 的期望 }}=mathbb{E}_{S_{t+1} sim pleft(cdot mid s_t, a_tright)}[R_t+gamma cdot underbrace{max _{A in mathcal{A}} Q_{star}left(S_{t+1}, Aright)}_{U_{t+1} text { 的期望 }} mid S_t=s_t, A_t=a_t]$
得到蒙特卡洛近似：
$Q_{star}left(s_t, a_tright) approx r_t+gamma cdot max _{a in mathcal{A}} Q_{star}left(s_{t+1}, aright) .$
带入神经网络参数：
$Q_{star}left(s_t, a_t;boldsymbol{w}right) approx r_t+gamma cdot max _{a in mathcal{A}} Q_{star}left(s_{t+1}, a;boldsymbol{w}right) .$

（2）流程

收集训练数据：我们可以用任何策略函数 $π$ 去控制智能体与环境交互, 这个 $π$ 就叫做行为策略 (Behavior Policy)。比较常用的是 $ϵ$ -greedy 策略:
$a_t= begin{cases}operatorname{argmax}_a Qleft(s_t, a ; boldsymbol{w}right), & text { 以概率 }(1-epsilon) ; \ text { 均匀抽取 } mathcal{A} text { 中的一个动作, } & text { 以概率 } epsilon .end{cases}$
把智能体在一局游戏中的轨迹记作：
$s_1, a_1, r_1, s_2, a_2, r_2, cdots s_n, a_n, r_n .$
把一条轨迹划分成 $n$ 个 $left(s_t, a_t, r_t, s_{t+1}right)$ 这种四元组, 存入数组, 这个数组叫做经验回放数组 (Replay Buffer)。
更新 DQN 参数 $w$ : 随机从经验回放数组中取出一个四元组, 记作 $left(s_j, a_j, r_j, s_{j+1}right)$ 。设 DQN 当前的参数为 $boldsymbol{w}_{text {now }}$ , 执行下面的步骤对参数做一次更新, 得到新的参数 $boldsymbol{w}_{text {new }}$ 。

对DQN做正向传播, 得到 $Q$ 值:
$widehat{q}_j=Qleft(s_j, a_j ; boldsymbol{w}_{text {now }}right) quad text { 和 } quad widehat{q}_{j+1}=max _{a in mathcal{A}} Qleft(s_{j+1}, a ; boldsymbol{w}_{text {now }}right) .$
计算TD目标和TD误差：
$widehat{y}_j=r_j+gamma cdot widehat{q}_{j+1} text { 和 } delta_j=widehat{q}_j-widehat{y}_j .$
对DQN做反向传播, 得到梯度:
$boldsymbol{g}_j=nabla_{boldsymbol{w}} Qleft(s_j, a_j ; boldsymbol{w}_{mathrm{now}}right) .$
做梯度下降更新DQN的参数:
$boldsymbol{w}_{text {new }} leftarrow boldsymbol{w}_{text {now }}-alpha cdot delta_j cdot boldsymbol{g}_j .$

智能体收集数据、更新DQN参数这两者可以同时进行。可以在智能体每执行一个动作之后, 对 $w$ 做几次更新。也可以在每完成一局游戏之后, 对 $w$ 做几次更新。

2.Q学习算法

（1）基础

利用Q学习（TD的一种）训练深度Q网络（DQN），已有四元组 $s_t,a_t,r_t,s_{t+1}>$ 。
已知贝尔曼（Bellman）最优方程：
$underbrace{Q_{star}left(s_t, a_tright)}_{U_t text { 的期望 }}=mathbb{E}_{S_{t+1} sim pleft(cdot mid s_t, a_tright)}[R_t+gamma cdot underbrace{max _{A in mathcal{A}} Q_{star}left(S_{t+1}, Aright)}_{U_{t+1} text { 的期望 }} mid S_t=s_t, A_t=a_t]$
公式左侧等效为：
$widetilde{Q}{(s_t, a_t)}$
公式右侧蒙特卡洛近似等效为：
$hat{y_t}triangleq r_t +gamma cdot max_{a in mathcal{A} }widetilde{Q}{(s_{t+1}, a)}$
更新表格 $Q$ 中 $s_t,a_t)$ 位置上的元素：
$widetilde{Q}{(s_t, a_t)} leftarrow (1-alpha) cdot widetilde{Q}{(s_t, a_t)}+alpha cdot hat{y_t}$

（2）流程

收集训练数据：同TD算法。
$a_t= begin{cases}operatorname{argmax}_a widetilde{Q}left(s_t, a right), & text { 以概率 }(1-epsilon) ; \ text {均匀抽取 } mathcal{A} text { 中的一个动作, } & text { 以概率 } epsilon .end{cases}$

把一条轨迹划分成 $n$ 个 $left(s_t, a_t, r_t, s_{t+1}right)$ 这种四元组, 存入数组。
经验回放更新表格 $\tilde{Q}$ : 随机从经验回放数组中抽取一个四元组, 记作 $left(s_j, a_j, r_j, s_{j+1}right)$ 。

把当前表格 $widetilde{Q}_{text {now }}$ 中第 $left(s_j, a_jright)$ 位置上的元素记作:
$widehat{q}_j=tilde{Q}_{text {now }}left(s_j, a_jright) .$
查看表格 $widetilde{Q}_{text {now }}$ 的第 $s_{j+1}$ 行, 把该行的最大值记作:
$widehat{q}_{j+1}=max _a widetilde{Q}_{text {now }}left(s_{j+1}, aright) .$
计算TD目标和TD误差:
$widehat{y}_j=r_j+gamma cdot widehat{q}_{j+1}, quad delta_j=widehat{q}_j-widehat{y}_j .$
更新表格中 $left(s_j, a_jright)$ 位置上的元素，得到更新后的表格:
$tilde{Q}_{text {new }}left(s_j, a_jright) leftarrow tilde{Q}_{text {now }}left(s_j, a_jright)-alpha cdot delta_j .$

收集经验与更新表格 $Q$ 可以同时进行。每当智能体执行一次动作, 我们可以用经验回放对 $Q$ 做几次更新。也可以当完成一局游戏, 对 $Q$ 做几次更新。

3.SARSA算法

（1）基础

已知贝尔曼方程：
$Q_pileft(s_t, a_tright)=mathbb{E}_{S_{t+1}, A_{t+1}}left[R_t+gamma cdot Q_pileft(S_{t+1}, A_{t+1}right) mid S_t=s_t, A_t=a_tright]$
左侧等效为： $qleft(s_t, a_tright)$

右侧根据蒙特卡洛近似为： $widehat{y}_t triangleq r_t+gamma cdot qleft(s_{t+1}, tilde{a}_{t+1}right)$
更新表格 $q$ 中 $s_t,a_t)$ 位置上的元素：
$qleft(s_t, a_tright) leftarrow(1-alpha) cdot qleft(s_t, a_tright)+alpha cdot widehat{y}_t$

（2）流程

五元组： $left(s_t, a_t, r_t, s_{t+1}, tilde{a}_{t+1}right)$ 。SARSA算法学到的 $q$ 依赖于策略 $π$ , 这是因为五元组中的 $tilde{a}_{t+1}$ 是根据 $s_{t+1}right)$ 抽样得到的。
训练流程：设当前表格为 $q_{text{now }}$ , 当前策略为 $pi_{text {now }}$ 。每一轮更新表格中的一个元素，把更新之后的表格记作 $q_{text {new}}$ 。

观测到当前状态 $s_t$ , 根据当前策略做抽样: $a_t sim pi_{text {now }}left(cdot mid s_tright)$ 。
把表格 $q_{text {now }}$ 中第 $left(s_t, a_tright)$ 位置上的元素记作:
$widehat{q}_t=q_{text {now }}left(s_t, a_tright) .$
智能体执行动作 $a_t$ 之后, 观测到奖励 $r_t$ 和新的状态 $s_{t+1}$ 。
根据当前策略做抽样: $tilde{a}_{t+1} sim pi_{text {now }}left(cdot mid s_{t+1}right)$ 。注意, $tilde{a}_{t+1}$ 只是假想的动作，智能体不予执行。
把表格 $q_{text {now }}$ 中第 $left(s_{t+1}, tilde{a}_{t+1}right)$ 位置上的元素记作:
$widehat{q}_{t+1}=q_{text {now }}left(s_{t+1}, tilde{a}_{t+1}right) .$
计算 TD 目标和 TD 误差:
$widehat{y}_t=r_t+gamma cdot widehat{q}_{t+1}, quad delta_t=widehat{q}_t-widehat{y}_t .$
更新表格中 $left(s_t, a_tright)$ 位置上的元素:
$q_{text {new }}left(s_t, a_tright) leftarrow q_{text {now }}left(s_t, a_tright)-alpha cdot delta_t .$
用某种算法更新策略函数。该算法与 SARSA算法无关。

（3）对比

$Q_{star} & text { 异策略 } & begin{array}{c} text { 可以使用 } \ text { 经验回放 } end{array} \ hline text { SARSA } & text { 近似 } Q_pi & text { 同策略 } & begin{array}{l} text { 不能使用 } \ text { 经验回放 } end{array} \ hline end{array}$

至于神经网络形式的SARSA：在状态空间 $S$ 为无限集的情况下适用。只需将上述流程中的q函数增加一个神经网络的参数 $w$ ，同时第七步更改为反向传播和梯度下降的求解过程，此处不再赘述。

4.多步TD目标

（1）基础

此时回报可以写作如下形式：
$U_t=left(sum_{i=0}^{m-1} gamma^i R_{t+i}right)+gamma^m U_{t+m}$
由此可得动作值函数为：
$underbrace{Q_pileft(s_t, a_tright)}_{U_t text { 的期望 }}=mathbb{E}[left(sum_{i=0}^{m-1} gamma^i R_{t+i}right)+gamma^m cdot underbrace{Q_pileft(S_{t+m}, A_{t+m}right)}_{U_{t+m} text { 的期望 }} mid S_t=s_t, A_t=a_t]$
左侧等效为：
$widehat{q_t}=qleft(s_t, a_t ; boldsymbol{w}right)$
右侧根据蒙特卡洛近似等效为：
$widehat{y}_t=left(sum_{i=0}^{m-1} gamma^i r_{t+i}right)+gamma^m cdot qleft(s_{t+m}, a_{t+m} ; boldsymbol{w}right)$
损失函数设置为：
$frac{1}{2}left[qleft(s_t, a_t ; boldsymbol{w}right)-widehat{y}_tright]^2$
梯度下降为：
$cdotleft(widehat{q}_t-widehat{y}_tright) cdot nabla_{boldsymbol{w}} qleft(s_t, a_t ; boldsymbol{w}right)$
流程与SARAS同理，略。

5.经验回放

（1）基础

定义：把智能体与环境交互的记录（即经验）储存到一个数组，事后反复利用这些经验训练智能体。这个数组被称为经验回放数组 (Replay Buffer)

优点：打破序列相关性。

局限：经验回放数组中的经验通常是过时的行为策略收集的，而我们真正想要学的目标策略不同于过时的行为策略。

（2）扩展

优先经验回放 (Prioritized Experience Replay) 是一种特殊的经验回放方法，它比普通的经验回放效果更好：既能让收敛更快，也能让收敛时的平均回报更高。优先经验回放给每个四元组一个权重，然后根据权重做非均匀随机抽样。

6.高估问题

（1）基础

Q 学习算法有一个缺陷：用 Q 学习训练出的 DQN 会高估真实的价值，而且高估通常是非均匀的。来源有两个：（1）自举导致的误差积累。（2）最大化导致高估。

（2）目标网络（缓和自举高估）

目标网络记作：
$boldsymbol{w}^{-}right)$
其神经网络结构与DQN完全相同，但 $w^-$ 与 $w$ 的值并不完全相同。

对DQN做正向传播，得到:
$widehat{q}_j=Qleft(s_j, a_j ; boldsymbol{w}_{text {now }}right) .$
对目标网络做正向传播，得到
$hat{q}_{j+1}^{-}=max _{a in mathcal{A}} Qleft(s_{j+1}, a ; boldsymbol{w}_{mathrm{now}}^{-}right) .$
计算TD目标和TD误差：
$widehat{y}_j^{-}=r_j+gamma cdot widehat{q}_{j+1} quad text { 和 } quad delta_j=widehat{q}_j-widehat{y}_j .$
对DQN做反向传播，得到梯度 $nabla_{boldsymbol{w}} Qleft(s_j, a_j ; boldsymbol{w}_{text {now }}right)$ 。
做梯度下降更新DQN的参数：
$boldsymbol{w}_{text {new }} leftarrow boldsymbol{w}_{text {now }}-alpha cdot delta_j cdot nabla_{boldsymbol{w}} Qleft(s_j, a_j ; boldsymbol{w}_{text {now }}right) .$
设 $τ \in (0, 1)$ 是需要手动调的超参数。做加权平均更新目标网络的参数：
$boldsymbol{w}_{text {new }}^{-} leftarrow tau cdot boldsymbol{w}_{text {new }}+(1-tau) cdot boldsymbol{w}_{text {now }}^{-}$

（3）双Q学习法（解决最大化高估）

此处对比Q学习、目标网络、双Q学习法的区别，流程与上文（2）中类似：

Q学习算法：
选择：即基于状态 $s_{j+1}$ , 选出一个动作使得 DQN 的输出最大化:
$a^{star}=underset{a in mathcal{A}}{operatorname{argmax}} Qleft(s_{j+1}, a ; boldsymbol{w}right) .$
求值：即计算 $left(s_{j+1}, a^{star}right)$ 的价值, 从而算出 TD 目标:
$widehat{y}_j=r_j+Qleft(s_{j+1}, a^{star} ; boldsymbol{w}right) .$
目标网络：
选择: $a^{-}=underset{a in mathcal{A}}{operatorname{argmax}} Qleft(s_{j+1}, a ; boldsymbol{w}^{-}right)$ ,
求值: $widehat{y_t^{-}}=r_t+Qleft(s_{j+1}, a^{-} ; boldsymbol{w}^{-}right)$ .
双Q学习，第一步的选择用DQN, 第二步的求值用目标网络：
选择: $a^{star}=underset{a in mathcal{A}}{operatorname{argmax}} Qleft(s_{j+1}, a ; boldsymbol{w}right)$ ,
求值: $widetilde{y}_t=r_t+Qleft(s_{j+1}, a^{star} ; boldsymbol{w}^{-}right)$ .

对比
$\ hline text { Q学习 } & text { DQN } & text { DQN } & text { 严重 } & text { 严重 } \ hline text { Q学习+目标网络}& text {目标网络 } & text { 目标网络 } & text { 不严重 } & text { 严重 } \ hline text { 双Q学习 } & text { DQN } & text { 目标网络 } & text { 不严重 } & text { 不严重 } \ hline end{array}$

7.对决网络

（1）基础

（2）流程

8.噪声网络

（1）基础

（2）流程

最后

以上就是俏皮战斗机最近收集整理的关于强化学习补充笔记（TD算法、Q学习算法、SARSA算法、多步TD目标、经验回放、高估问题、对决网络、噪声网络）学习目标：学习内容：的全部内容，更多相关强化学习内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：算法
浏览次数：119 次浏览
发布日期：2023-10-20 13:41:35
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_23_o_26_f5_12__7__6_4.html

强化学习补充笔记（TD算法、Q学习算法、SARSA算法、多步TD目标、经验回放、高估问题、对决网络、噪声网络）学习目标：学习内容：

学习目标：

学习内容：

0.基础符号

1.时间差分（TD）算法

（1）基础

（2）流程

2.Q学习算法

（1）基础

（2）流程

3.SARSA算法

（1）基础

（2）流程

（3）对比

4.多步TD目标

（1）基础

5.经验回放

（1）基础

（2）扩展

6.高估问题

（1）基础

（2）目标网络（缓和自举高估）

（3）双Q学习法（解决最大化高估）

7.对决网络

（1）基础

（2）流程

8.噪声网络

（1）基础

（2）流程

最后

评论列表共有 0 条评论

发表评论取消回复

强化学习 补充笔记（TD算法、Q学习算法、SARSA算法、多步TD目标、经验回放、高估问题、对决网络、噪声网络）学习目标：学习内容：

学习目标：

学习内容：

0.基础符号

1.时间差分（TD）算法

（1）基础

（2）流程

2.Q学习算法

（1）基础

（2）流程

3.SARSA算法

（1）基础

（2）流程

（3）对比

4.多步TD目标

（1）基础

5.经验回放

（1）基础

（2）扩展

6.高估问题

（1）基础

（2）目标网络（缓和自举高估）

（3）双Q学习法（解决最大化高估）

7.对决网络

（1）基础

（2）流程

8.噪声网络

（1）基础

（2）流程

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

微信扫一扫：分享

强化学习补充笔记（TD算法、Q学习算法、SARSA算法、多步TD目标、经验回放、高估问题、对决网络、噪声网络）学习目标：学习内容：

发表评论取消回复