DRL实战 : N-Armed Bandits问题
多臂强盗(n台老虎机)问题在构建AlphaGo之前,先尝试一个简单的问题热热身,nnn 台老虎机(多臂强盗问题),把对 nnn 台老虎机操作看作是 nnn 个不同的动作,即:每个动作 aaa 对应一台特定的老虎机.在每次游戏 kkk 中,玩家可以操作任意一台老虎机,这个操作即:动作 aaa,操作后玩家会获得奖励 R(k)R(k)R(k), 每台老虎机的奖励概率是固定的.如何在这个游戏中获得更高...