强化学习例子QLearning
QLearning迷宫寻宝游戏我们这里有一个最简单的2*2的迷宫,左上角为起点(1),右下角为宝藏(4),要提防的就是左下角的陷阱(3)。作为高智商物种,我们一眼就可以看出来最优路径就是1-2-4,而对于计算机则不然,他刚开始对这些没有任何的概念,这些信息都要它自己探索获得,或者我们直接把环境信息构建好告诉他。在上面这个例子中,我们要设计奖惩规则,比如,我们的目标是最少步骤内拿到宝贝同时还要避免掉坑(陷阱)里去,所以呢我们把每走一步奖赏设为-1,掉坑里的话奖励他-10,拿到宝贝的话奖励+10。单