on-policy与off-policy;确定性策略与随机策略1 on-policy与off-policy2 确定性策略和随机性策略
1 on-policy与off-policy之前一直搞不清楚on-policy和off-policy是什么区别,在查阅了各种公众号和博客、论坛之后,决定总结一下on-policy和off-policy的区别。首先,如下图所示,on-policy和off-policy都是on-line强化学习策略更新中的一种。on-line和off-line最明显的区别就是,在一次learn policy之后,on-line2 确定性策略和随机性策略确定性策略[公式]为一个将状态空间[公式]映射到动作空间[公式]