懦弱板栗

文章
8
资源
0
加入时间
2年10月21天

Q学习例子

假设建筑物中有5个房间,如上图所示。我们将每个房间的编号设为0到4.建筑物的外部可以被认为是一个大房间(5)。当然,5号房间的回报率为100,其他所有与目标房间的直接连接奖励为100。Q(1,5)= R(1,5)+ 0.8 * Max [] = 100 + 0.8 * 0 = 100机器人从状态2开始,我们希望他能够学习到房子外面状态5。状态列表:状态0可到达——>状态4;状态1可到达——>状态3、5;状态2可到达——>状态3;状态3可到达——&