Q-Learning 自己思路详细讲解,运行原理(走迷宫)附上代码
Q-Learning 自己思路详细讲解,运行原路(走迷宫)网上太多翻译原文或者根据原文改进的思路写的文章,基本理论都一样的,没有说明核心理论是怎么样。我来讲解一下我对Q-Learning的理解,全部原创希望你们能读完,因为理解对写代码来说非常重要,所以我把代码附上不让你们白读,本文不太长,最后附上C++可执行代码,直接复制到main即可运行,且代码清除明了。本文:具体介绍了一下贪心系数的存在意义和Q-table为什么这样填充值和为什么使用随机action。根据我的理解Q-learning是一个不