糟糕跳跳糖

文章
7
资源
0
加入时间
2年10月21天

在基本网格世界中训练强化学习代理1.创建网格世界环境2.创建Q-学习代理3.培训Q-学习代理4.验证Q-学习结果5.创建和培训SARSA代理6.验证SARSA培训

此网格世界环境具有以下配置和规则:一个由边界界定的5 x 5网格世界,有4种可能的动作(北= 1,南= 2,东= 3,西= 4)。代理从单元格[2,1](第二行,第一列)开始。如果代理人到达单元格[5,5]的最终状态(蓝色),则代理商会获得+10的奖励。该环境包含从单元格[2,4]到单元格[4,4]的特殊跳转,奖励为+5。代理被障碍物(黑格)阻塞。所有其他动作都会导致-1奖励。1.创建网格世界环境创建基本的网格世界环境。env = rlPredefinedEnv("BasicGridW