如何理解UCB-Upper Confidence Bound
转载自:https://zhuanlan.zhihu.com/p/32356077博主讲的非常好,假设我们开了一家叫Surprise Me的饭馆客人来了不用点餐,由算法从N道菜中选择一道菜推荐给客人 每道菜都有一定的失败概率:以1-p的概率不好吃,以p的概率做得好吃 算法的目标是让满意的客人越多越好。解决方法:def UCB(t, N): upper_bound_probs = [avg_rewards[item] + calculate_delta(t, item)