2024年09月归档_时尚烧鹅的博客_JavaScript,电脑常识,Photoshop教程,Window服务器,Windows xp,ASP.NET,Java基础,linux&windows,PHP,java_concurrency,人工智能、算法领域博主

时尚烧鹅

文章

资源

加入时间

4年6月12天

强化学习例子QLearning

QLearning迷宫寻宝游戏我们这里有一个最简单的2*2的迷宫，左上角为起点（1），右下角为宝藏（4），要提防的就是左下角的陷阱（3）。作为高智商物种，我们一眼就可以看出来最优路径就是1-2-4，而对于计算机则不然，他刚开始对这些没有任何的概念，这些信息都要它自己探索获得，或者我们直接把环境信息构建好告诉他。在上面这个例子中，我们要设计奖惩规则，比如，我们的目标是最少步骤内拿到宝贝同时还要避免掉坑（陷阱）里去，所以呢我们把每走一步奖赏设为-1，掉坑里的话奖励他-10，拿到宝贝的话奖励+10。单

人工智能、算法 2024-09-17 218 点赞 3 评论 330 浏览

他的专栏

JavaScript（0）

电脑常识（0）

Photoshop教程（0）

Window服务器（0）

Windows xp（1）

ASP.NET（1）

Java基础（1）

linux&windows（1）

PHP（1）

java_concurrency（1）

人工智能、算法（1）

他的归档

2024年09月（1）

热门文章

WinXP热键小漏洞的秘密分享

.NET 6开发TodoList应用之实现数据塑形

Java垃圾回收机制前言垃圾垃圾回收参考资料：

急！还原windows7任务栏的资源管理器图标

前后端分离与跨域的解决方案（CORS的原理）前后端分离跨域问题存在的原因跨域问题的解决方案修改浏览器配置解决跨域使用jsonp解决跨域CORS解决跨域

java主线程结束和子线程结束之间的关系

强化学习例子QLearning