上置信界算法(the-upper-confidence-bound-algorithm,UCB)
原文: the-upper-confidence-bound-algorithm补充:Subgaussian random variables:An expository note 我们现在描述著名的上置信界(UCB)算法,它克服了基于exploration的策略的所有局限性,包括了解水平和次优性差距。根据噪声的分布假设,该算法有多种不同的形式。 该算法基于面对不确定性时的乐观原...