K摇臂赌博机 --ε-贪心算法(原理与Python代码实现模拟)
K摇臂赌博机 K摇臂赌博机对应单步强化学习模型,K摇臂赌博机有K个摇臂,赌徒投币后按下其中一个摇臂,摇臂以一定的概率吐出硬币,赌徒事先并不知道每个摇臂吐出概率的的情况,需要使得赌徒获得硬币最大?解决这个问题,其中有两种简单的解法:仅利用: 选择目前为止平均奖赏最大的摇臂,缺点没有很好地估计摇臂的期望奖赏,可能经常选择不到最优的奖赏,仅探索: 将选择的机会平