上限置信度区间算法(UCT)1.多臂老虎机
算法来源文章《Bandit based Monte-Carlo Planning》,06年的ECML。建议想做游戏人机玩家的同学看看。1.多臂老虎机多臂老虎机问题,简单来说,我有很多个老虎机,虽然都是老虎机但它们的中奖率采取的是不同的概率分布,现在我希望在有限次的摇臂过程中,获得最大的收益,我该怎么做呢?最简单的想法肯定是,我对每一个老虎机都摇N次,根据大数定律,频率最终会等于概率。然后我就...