慈祥身影

文章
7
资源
0
加入时间
4年1月24天

强化学习-Q-Learning算法一、Q-Learning的更新Q值的公式二、Q-Learning的存储Q值的Q-Table三、Q-Learning的更新Q值的算法流程四、Q-Learning的工程化的执行流程

在基础阶段我们已经学习了,了解了的概念。Q-Learning的思想就是根据值迭代得到的。但要前面的值迭代每次都对所有状态和动作的Q值更新一遍,这在现实中可行性并不高。Q-Learning只使用进行操作。那么,怎么处理?Q Learning提出了一种更新Q值(在某个时刻在状态s下采取动作a的长期回报。)的办法:上面的公式含义就是:现在的Q值=原来的Q值+学习率*(立即回报+Lambda*后继状态的最大Q值-)我们分析以上公式可知,为了得到最优策略Policy,。那么这种“”怎么实现呢?