我是靠谱客的博主 平淡橘子,这篇文章主要介绍深度增强学习David Silver(九)——Exploration and Exploitation,现在分享给大家,希望可以做个参考。

本课主要内容:

  • multi-armed bandits
  • contextual bandits
  • MDPs

multi-armed bandit是多臂赌博机,有元组 A,R ,目标是最大化奖励。
行动价值函数是一个行动所获得的平均奖励: Q(a)=E[r|a]
最优价值为 V=Q(a)=maxaAQ(a)
regret指每一步的损失: lt=E[VQ(at)]
total regret为: Lt=E[tτ=1VQ(aτ)]
最大化总奖励就是最小化total regret。
Lt 又可以表示为:
Lt=aAE[Nt(a)](VQ(a))=aAE[Nt(a)]Δa
Δa 称为gap,是行动a和最优行动a*之间的价值上的差值。
Q^t(a) 估计 Q(a) ,使用Monte-Carlo估计: Q^t(a)=1Nt(a)Tt=1rt1(at=a)
greedy算法总是选择使 Q^t(a) 最高的行动,这样容易陷入次最优行动中,而且total regret呈线性。
ϵ -greedy保证了最小的regret: ltϵAaAΔa
但它也是线性的。
因此选择让 ϵ 逐渐衰减,
c>0,d=mina|Δa>0Δi,ϵt=min{1,c|A|d2t}
衰减的 ϵt -greedy的total regret呈对数。

以上是exploitation方面的方法,接下来从exploration方面进行考虑,在不确定面前,要多探索未知位置。对每个行动价值函数设置一个置信上界 U^t(a) 。比如 Q(a)Q^t(a)+U^t(a) 具有很高的概率。当经过的次数 Nt(a) 较少时, U^t(a) 就要比较大,让它多经过几次。
选择最大化置信上界(Upper Confidence Bound, UCB)的行动:
at=argmaxaAQ^t(a)+U^t(a)
根据Hoeffding不等式推导得出 Ut(a)=2logtNt(a)

目前为止我们还没有做关于奖励R分布的假设。设给定历史 ht=a1,r1,...,at1,rt1 下,奖励R的后验分布为 p(R|ht)
使用后验概率引导exploration:

  • Upper confidence bounds (Bayesian UCB)
  • Probability matching (Thompson sampling)
  • Better performance if prior knowledge is accurate

假设奖励分布为高斯分布 Ra(r)=N(r;μa,σ2a) ,根据贝叶斯公式计算高斯后验概率:
p[μa,σ2a|ht]p[μa,σ2a]Πt|at=aN(rt;μa,σ2a)
选择使Q(a)的标准差最大的行动。
at=argmaxaAμa+cσa/N(a)

probability matching根据a是最优行动的概率选择行动。Thompson sampling实现probability matching。
π(a|ht)=P[Q(a)>Q(a),aa|ht]=ER|ht[1(a=argmaxaAQ(a))]

如果我们知道信息的价值,那么能更好的权衡exploration和exploitation。刚才我们将bandit看做一步的decision-marking问题。它也可以作为序列决策问题。在每一步,都有一个信息状态 s^ ,定义MDP M^=S^,A,P^,R,γ

感觉这章偏应用。。看不下去了,第十章也是偏应用,就不讲了,就这样吧。。

最后

以上就是平淡橘子最近收集整理的关于深度增强学习David Silver(九)——Exploration and Exploitation的全部内容,更多相关深度增强学习David内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(51)

评论列表共有 0 条评论

立即
投稿
返回
顶部