2.1 A k-armed Bandit Problem
考虑如下问题:有k个不同的选择(或者说动作)摆在你的面前,你需要不断重复地选择其中一个,每次你选择其中一个之后,会根据你选择的动作给你一个数值奖励,这个数值奖励符合正态分布。你的目标是在经过一定的次数后,比如1000次后,获得的期望奖励之和最大。这就是原始形式的K摇臂游戏机问题,以模拟一种投币游戏机命名,它是只有一个摇臂的,而不是k个摇臂。每次选择一个动作就像拉下游戏机上的某个摇臂(拉杆),奖...