本课主要内容:
- multi-armed bandits
- contextual bandits
- MDPs
multi-armed bandit是多臂赌博机,有元组
⟨A,R⟩
,目标是最大化奖励。
行动价值函数是一个行动所获得的平均奖励:
Q(a)=E[r|a]
最优价值为
V∗=Q(a∗)=maxa∈AQ(a)
regret指每一步的损失:
lt=E[V∗−Q(at)]
total regret为:
Lt=E[∑tτ=1V∗−Q(aτ)]
最大化总奖励就是最小化total regret。
Lt
又可以表示为:
Lt=∑a∈AE[Nt(a)](V∗−Q(a))=∑a∈AE[Nt(a)]Δa
Δa
称为gap,是行动a和最优行动a*之间的价值上的差值。
用
Q^t(a)
估计
Q(a)
,使用Monte-Carlo估计:
Q^t(a)=1Nt(a)∑Tt=1rt1(at=a)
greedy算法总是选择使
Q^t(a)
最高的行动,这样容易陷入次最优行动中,而且total regret呈线性。
ϵ
-greedy保证了最小的regret:
lt≥ϵA∑a∈AΔa
但它也是线性的。
因此选择让
ϵ
逐渐衰减,
c>0,d=mina|Δa>0Δi,ϵt=min{1,c|A|d2t}
衰减的
ϵt
-greedy的total regret呈对数。
以上是exploitation方面的方法,接下来从exploration方面进行考虑,在不确定面前,要多探索未知位置。对每个行动价值函数设置一个置信上界
U^t(a)
。比如
Q(a)≤Q^t(a)+U^t(a)
具有很高的概率。当经过的次数
Nt(a)
较少时,
U^t(a)
就要比较大,让它多经过几次。
选择最大化置信上界(Upper Confidence Bound, UCB)的行动:
at=argmaxa∈AQ^t(a)+U^t(a)
根据Hoeffding不等式推导得出
Ut(a)=2logtNt(a)−−−−√
目前为止我们还没有做关于奖励R分布的假设。设给定历史
ht=a1,r1,...,at−1,rt−1
下,奖励R的后验分布为
p(R|ht)
。
使用后验概率引导exploration:
- Upper confidence bounds (Bayesian UCB)
- Probability matching (Thompson sampling)
- Better performance if prior knowledge is accurate
假设奖励分布为高斯分布
Ra(r)=N(r;μa,σ2a)
,根据贝叶斯公式计算高斯后验概率:
p[μa,σ2a|ht]∝p[μa,σ2a]Πt|at=aN(rt;μa,σ2a)
选择使Q(a)的标准差最大的行动。
at=argmaxa∈Aμa+cσa/N(a)−−−−√
probability matching根据a是最优行动的概率选择行动。Thompson sampling实现probability matching。
π(a|ht)=P[Q(a)>Q(a′),∀a′≠a|ht]=ER|ht[1(a=argmaxa∈AQ(a))]
如果我们知道信息的价值,那么能更好的权衡exploration和exploitation。刚才我们将bandit看做一步的decision-marking问题。它也可以作为序列决策问题。在每一步,都有一个信息状态 s^ ,定义MDP M^=⟨S^,A,P^,R,γ⟩
感觉这章偏应用。。看不下去了,第十章也是偏应用,就不讲了,就这样吧。。
最后
以上就是平淡橘子最近收集整理的关于深度增强学习David Silver(九)——Exploration and Exploitation的全部内容,更多相关深度增强学习David内容请搜索靠谱客的其他文章。
发表评论 取消回复