Q-learning算法实现1(matlab)
算法伪代码:得到Q表后,根据如下算法选择最优策略:以机器人走房间为例,代码实现如下:原文链接如下:https://www.jianshu.com/p/29db50000e3f注:原文中的房间状态0-5分别对应代码中1-6%机器人走房间Q-learning的实现%% 基本参数episode=100; %探索的迭代次数alpha=1;%更新步长gamma=0.8;...