动听茉莉

文章
8
资源
0
加入时间
3年2月3天

利用MATLAB的强化学习工具箱实现Q-Learning和SARSA算法

在网格世界(Grid World)环境中训练强化学习Agent(代理人)此示例显示了如何通过训练Q-learning和SARSA代理人来使用强化学习来解决网格世界环境。 有关这些代理的更多信息,请分别参阅Q-Learning代理和SARSA代理。此网格世界环境具有以下配置和规则:一个由边界界定的5 x 5网格世界,有4种可能的动作(北= 1,南= 2,东= 3,西= 4)。代理从单元格[2,1](第二行,第一列)开始。如果代理人到达单元格[5,5]的最终状态(蓝色),则代理商会获得+10的奖励。