on-policy与off-policy；确定性策略与随机策略1 on-policy与off-policy2 确定性策略和随机性策略

410 阅读 0 评论 271 点赞

我是靠谱客的博主清新自行车，这篇文章主要介绍on-policy与off-policy；确定性策略与随机策略1 on-policy与off-policy2 确定性策略和随机性策略，现在分享给大家，希望可以做个参考。

1 on-policy与off-policy

之前一直搞不清楚on-policy和off-policy是什么区别，在查阅了各种公众号和博客、论坛之后，决定总结一下on-policy和off-policy的区别。

首先，如下图所示，on-policy和off-policy都是on-line强化学习策略更新中的一种。on-line和off-line最明显的区别就是，在一次policy.learn()之后，即在一次参数更新之后，on-line方法一定要去再次与环境交互获得新数据，而off-line则选择继续吃老本训练。

其次，关于on-policy和off-policy的区别，sutton的书中说“on-policy就是agent的目标策略与行为策略一致，反之就是off-policy”，这一句话乍一听很好理解，但是具体到算法上又会让人很难区分。

具体到代码层面的理解：
on-policy: 选择动作的策略与即将更新的策略网络是一致的，注意需要是完全一致的。换句话理解，更新策略自己的网络，得靠策略自己生成的数据去更新，不能靠其他时刻的策略。
off-policy: 选择动作的策略与即将更新的策略网络是不一致的，注意这个不一致可能有很多方面，比如在原始策略上加一个 $ϵ$ -greedy，那就是两个策略了；还比如用好几个learn（）之前的策略采集的数据，更新现在的策略，也是off-policy。

在这里插入图片描述