强化学习入门: the 10-armed bandit problem，e-greedy 算法问题描述：the 10-armed bandit problem算法1： ϵ − g r e e

84 阅读 0 评论 56 点赞

我是靠谱客的博主懵懂水杯，最近开发中收集的这篇文章主要介绍强化学习入门: the 10-armed bandit problem，e-greedy 算法问题描述：the 10-armed bandit problem算法1： ϵ − g r e e ，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

学习强化学习《Reinforcement Learning An Introduction》，2.3节，做了个Matlab的仿真。

问题描述：the 10-armed bandit problem

这是一个重复做选择的问题。一共有10个选择，重复选择1000次。

每次选择都会有奖励，奖励是符合固定的正态分布的。

所以做不同的选择，获得的奖励不同；每次做的选择，尽管选择相同，但奖励也不同。

你的目的是，连续做了1000次选择后，得到的回报总和越高越好。

在这里插入图片描述

这个图是一个特殊的 10-armed bandit problem。特殊之处在于 $q_star (a)$ 的值。

重要：10-armed bandit problem是一个系列问题的总称，每个特殊的10-armed bandit problem之间的不同之处在于 $q_star (a)$ 的值的不同。选择选项 $a$ 后，获得奖励是符合正态分布的 $N(q_star(a),1)$ 。

算法1： $ϵ - g r e e d y$ algorithm

你是不知道 $q_star(a)$ 的具体值的，所以首先要对每个选择的行为值做个估计，因为这个估计值是在不断更新的，所以定义为 $Q_t( a )$ ，意思是在 $t$ 时刻，选择行为 $a$ 后，估计得到的奖励值。

这个算法的大概步骤是：每次选择执行的行为是估计值最大的行为，小概率的情况下，随机选择其他的行为。

算法步骤如下：

初始化：将 $Q (a)$ 全部初始化为 $0$ ；将 $N (a)$ 全部初始化为0； $R^{total}(t)=0$ ;
for t = 1~1000
1. $A=argmax_a Q_t(a)$ with probability $1 - ϵ$ ;
  
  $A =$ a random action with probability $ϵ$ ；
2. 计算回报 $R(t)=bandit(A)=N(q_star(A),1)$ ；
3. 计算总回报 $R^{total}(t)+=R(t)$ ;
4. $N_A+=1$ ;
5. $Q ( A ) = Q ( A ) + 1 N ( A ) [ R − Q ( A ) ] Q(A)=Q(A)+dfrac{1}{N(A)}[R-Q(A)]$ ;

仿真

因为存在不确定性，每次的回报都是服从一个正态分布，所以每次做实验的结果也是不一样的。为了说明问题，我们做2000次仿真实验，每次仿真实验都是，然后取平均值。

对于某一$epsilon $的仿真步骤如下：

for i = 1:2000
1. 初始化 $q_star(a)$ 为 $N (0, 1)$ 的分布，由此确定了一个10-armed bandit problem；
2. 对刚刚特殊化的问题，运行三次 $ϵ - g r e e e d y$ 算法；
  1. for j = 1~3
    1. $ϵ (j) = 0 ； 0.01 ； 0.1$
    2. 运行 $ϵ - g r e e e d y$ 算法
    3. 得出 $R^{total}_{ij}(t)$
for t = 1:1000
1. for i = 1:2000
  1. 对 $i$ 求均值 $bar{R}_j^{total}(t)$ ;
作图，在一个图中，画出三个 $bar{R}_j ^{total}(t)$ 与时间的曲线图

最后

以上就是懵懂水杯为你收集整理的强化学习入门: the 10-armed bandit problem，e-greedy 算法问题描述：the 10-armed bandit problem算法1： ϵ − g r e e 的全部内容，希望文章能够帮你解决强化学习入门: the 10-armed bandit problem，e-greedy 算法问题描述：the 10-armed bandit problem算法1： ϵ − g r e e 所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错，欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(56)

本文分类：理论类
浏览次数：84 次浏览
发布日期：2024-09-18 00:30:02
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_7_o_10_fw_14_z_6_3.html

相关文章

RL,MAB与Contextual Bandits区别

RL,MAB与Contextual Bandits区别

[转载]从Thompson Sampling到增强学习，再谈多臂老虎机问题

[转载]从Thompson Sampling到增强学习，再谈多臂老虎机问题

2.1 A k-armed Bandit Problem

2.1 A k-armed Bandit Problem

Context-free Bandit算法来源应用场景原理（有策略地快速试一试）整体缺点参考资料

Context-free Bandit算法来源应用场景原理（有策略地快速试一试）整体缺点参考资料

强化学习入门: the 10-armed bandit problem，e-greedy 算法问题描述：the 10-armed bandit problem算法1：

ϵ

−

g

r

e

e

强化学习入门: the 10-armed bandit problem，e-greedy 算法问题描述：the 10-armed bandit problem算法1： ϵ − g r e e

一个算法对于某个输入的循环次数是可以事先估计出来的_在线学习(MAB)与强化学习(RL)[4]：贝叶斯Bandit算法...

一个算法对于某个输入的循环次数是可以事先估计出来的_在线学习(MAB)与强化学习(RL)[4]：贝叶斯Bandit算法...

找最佳餐馆（multiarmed bandit problem）机器学习笔记1

找最佳餐馆（multiarmed bandit problem）机器学习笔记1

多臂机测试， AB测试专治选择困难症——bandit算法赌博机算法

多臂机测试， AB测试专治选择困难症——bandit算法赌博机算法

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部