强化学习之探索与利用(二)衰减的 ϵ \epsilon ϵ-贪婪探索不确定行为优先探索基于信息价值的探索
常用的探索方法衰减的ϵ\epsilonϵ-贪婪探索不确定行为优先探索乐观初始估计可信区间上限概率匹配基于信息价值的探索衰减的ϵ\epsilonϵ-贪婪探索衰减的ϵ\epsilonϵ-贪婪探索是在ϵ\epsilonϵ-贪婪探索上的改进,其核心思想是随着时间的推移,采用随机行为的概率ϵ\epsilonϵ越来越小。理论上随时间改变的ϵ\epsilonϵ-ttt由下式确定:其中ddd是次优行为与最优行为价值之间的相对差距。衰减的ϵ\epsilonϵ-贪婪探索能够使得总得后悔值呈现出与时间步长的对数关系,