概述
一、概念
Exploitation
执行能够获得最优收益的策略
Exploration
尝试更多可能的策略,不一定会是最优收益
可能发现更好的策略
二、策略探索的原则
朴素方法
贪心策略和 ϵ-greedy
衰减贪心策略
ϵ随时间衰减
积极初始化
给Q(a^i)一个较高的初始化值
基于不确定性的度量
显示地考虑动作的价值分布
UCB:上置信界
概率匹配
Thompson Sampling
根据每个动作成为最优的概率来选择动作
状态搜索
像AlphaGo,基于整个透明的可搜索可枚举的环境
三、多臂老虎机
问题的形式化描述
动作集合 ai∈A, i = 1, ..., K
收益(反馈)函数分布 R(r | a^i) = P(r | a^i)
最大化累计时间的收益
收益估计
期望收益和采样次数的关系
Qn(a^i) = (r1 + r2 + ... + rn-1) / (n - 1)
空间复杂度为O(n)
增量实现
Qn+1(a^i) = Qn + 1/n(rn - Qn)
空间复杂度为O(1)
算法框架
初始化 Q(a^i) := c^i, N(a^i) = 0, i = 1, ..., n
主循环 t = 1:T
利用策略π选取某个动作a
获取收益:rt = Bandit(a)
更新计数器:N(a) := N(a) + 1
更新估值:Q(a) := Q(a) + 1/N(a)[rt - Q(a)]
四、Regret 函数
Regret 是决策与最优决策的收益差
Total Regret 函数 σR
等价性
下界(Lai & Robbins)
希望找到具有次线性收敛保证的regret
五、讨论
1.在策略学习过程中,往往需要进行新策略探索与旧策略的利用其目的分别是尝试不同策略,以进行策略提升/提升对旧策略的评估能力
2.如果一直进行策略探索,算法可能具有线性增长的total regret不会收敛;在MAB问题中,使用增量式蒙特卡洛进行奖励值估计能够使得算法的空间复杂度从O(N)优化至O(1);一个具有次线性total regret收敛保证的策略探索算法总是能够在有限时间内让强化学习算法收敛
3.基于不确定性测度的方法,通常被选择次数越多的动作,其不确定性越低;对于积极初始化方法,虽然随着采样次数的增加,其估计偏差会越来越低,但仍然可能会面临一个收敛到局部最优的情况;衰减ϵ-greedy才具有次线性收敛保证
4.对于ϵ-greedy策略探索方式,更高的ϵ 不一定优于更低ϵ探索方式让算法获得的最终奖励值
。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
如果大家喜欢这篇文章的话,希望大家收藏、转发、关注、评论、点赞,转载请注明出自这里。 PS:本随笔属个人学习小结,文中内容有参考互联网上的相关文章。如果您博文的链接被我引用,我承诺不会参杂经济利益;如果有版权纠纷,请私信留言。其中如果发现文中有不正确的认知或遗漏的地方请评论告知,谢谢! 还是那句话:不是我喜欢copy,是站在巨人的肩膀上~~
最后
以上就是心灵美红酒为你收集整理的强化学习 之 探索与利用一、概念二、策略探索的原则三、多臂老虎机四、Regret 函数五、讨论的全部内容,希望文章能够帮你解决强化学习 之 探索与利用一、概念二、策略探索的原则三、多臂老虎机四、Regret 函数五、讨论所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复