俭朴凉面

文章
6
资源
0
加入时间
3年1月10天

q learning 参数_强化学习算法回顾 Q-learning 玩 OpenAI 的 Taxi 游戏

这里使用的是 OpenAI Taxi-V3 环境这里有 4 个地点,分别用 4 个字母表示,任务是要从一个地点接上乘客,送到另外 3 个中的一个放下乘客,越快越好。成功运送一个客人获得 20 分奖励每走一步损失 1 分(希望尽快送到目的地)没有把客人放到指定的位置,损失 10 分渲染图中显示,一共 R,G,B,Y 这 4 个地点,黄色的块是 taxi,其中 ":" 栅栏可以穿越,"|" 栅栏不能穿...