强化学习知识要点与编程实践(8)——探索与利用0. 引言1. 多臂赌博机2. 常用的探索方法
探索与利用0. 引言1. 多臂赌博机2. 常用的探索方法2.1 衰减ϵ\epsilonϵ-贪婪方法2.2 不确定行为优先探索2.2.1 乐观初始估计2.2.2 置信区间上限2.2.3 概率匹配2.3 基于信息价值的探索本文未经许可,禁止转载,如需转载请联系笔者0. 引言在强化学习问题中,探索和利用是一对矛盾: 探索 尝试不同的行为继而收集更多的信息,利用 则是做出当前信息下的最佳决定。探索可能会牺牲一些短期利益,通过搜集更多信息而获得较为长期准确的利益估计;利用则侧重于对根据已掌握的信息而做到短