概述
如何判断强化学习算法是否收敛
1. 策略熵
- 对于随机性策略(PPO等)可以用策略熵来表示策略是否“确定”。在训练过程中随着策略提升,策略变得越来越确定,此时熵应该是随着逐渐降低的,熵曲线趋于平缓。
2. loss指标(网络收敛好坏)
- 这是DL中的直观指标,虽然不能直接用在DRL来说明策略好坏,但loss是在一直下降还是已经趋于平缓了,可以一定程度上说明网络模型的学习程度,看模型是“学会了”还是“学废了”,趋于平缓可能就是已经训练差不多了,当然“训练差不多”不代表“策略最优”,有些可能loss还在掉,但是策略表现改进不大一直很差(即时已经训练很久)。
3. reward指标(更常用)
- 这是一个比较直观的指标,但是需要定义清楚是否能直接反应我们策略好坏。reward大多是对于状态之间转移的即时奖励,和整个决策规划的好坏不能直接等价。以下以“DRL用于agent决策导航”为例,我们目标是在最短时间到达目标点同时避障。
- 在训练过程中,DRL策略在一个episode下获得的平均奖赏没有明显变化时,可以认为DRL训练近似收敛
- 如果是dense reward,靠近目标点+reward,远离给-reward,按照距离变化程度乘一个系数,比如靠近1m给+1,靠近2m给+2,远离同理。这时候如果以“单条轨迹的累计折扣报酬”这个rewad指标来对比策略好坏,就不是很合理,因为那种“单步报酬不多但是轨迹长”的决策路径就会变成“最优reward轨迹”。所以应该以“一条轨迹的单步平均reward”作为指标,因为“最短时间达到目标点”这个目标可以转换成“轨迹短(决策步数短、时间短)”+“累计报酬多(每步的靠近多,路径短)”这两个目标。平均reward可以很好表示这个要求。
- 如果是sparse reward,比如只有最后到达了才有+1、碰撞/超时有-1,过程动作都让agent去探索。这时候可能很长时间reward指标是接近于0的,或者一个很小的负数。压根训练不出来(当然也不知道是真-训不出来还是训练时间太短),这时候用reward指标是很难看出一个所以然的。
4. 其他
- 和具体场景结合的一些指标,比如游戏中各种reward指标的一个平均reward,游戏里面agent的血量、存活率等等。(采用一些可以进行评价的指标)
- 有些场景下设置了学习率随训练轮次逐渐减小的trick,也会影响一些收敛判断。
最后
以上就是朴素鸡为你收集整理的如何判断强化学习算法是否收敛的全部内容,希望文章能够帮你解决如何判断强化学习算法是否收敛所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复