2023年03月归档_俭朴凉面的博客_PHP编程,Mssql,Flash教程,建站经验,ASP.NET编程,Android,q learning 参数,IT技术领域博主

俭朴凉面

文章

资源

加入时间

4年5月14天

q learning 参数_强化学习算法回顾 Q-learning 玩 OpenAI 的 Taxi 游戏

这里使用的是 OpenAI Taxi-V3 环境这里有 4 个地点，分别用 4 个字母表示，任务是要从一个地点接上乘客，送到另外 3 个中的一个放下乘客，越快越好。成功运送一个客人获得 20 分奖励每走一步损失 1 分(希望尽快送到目的地)没有把客人放到指定的位置，损失 10 分渲染图中显示，一共 R，G，B，Y 这 4 个地点，黄色的块是 taxi，其中 ":" 栅栏可以穿越，"|" 栅栏不能穿...

q learning 参数 2023-03-08 168 点赞 2 评论 254 浏览

他的专栏

PHP编程（0）

Mssql（0）

Flash教程（1）

建站经验（1）

ASP.NET编程（1）

Android（1）

q learning 参数（1）

IT技术（1）

他的归档

2023年03月（1）

热门文章

FLASH 脚本代码大全

MoFuse为你的博客创建免费的博客WAP版

Visual Studio 2013+OpenCV2.4.10环境搭建教程

android Web跳转到app指定页面并传递参数实例

q learning 参数_强化学习算法回顾 Q-learning 玩 OpenAI 的 Taxi 游戏

USB转RS232串口线-交叉线or直连线USB转RS232串口线