清新自行车

文章
7
资源
0
加入时间
2年10月21天

on-policy与off-policy;确定性策略与随机策略1 on-policy与off-policy2 确定性策略和随机性策略

1 on-policy与off-policy之前一直搞不清楚on-policy和off-policy是什么区别,在查阅了各种公众号和博客、论坛之后,决定总结一下on-policy和off-policy的区别。首先,如下图所示,on-policy和off-policy都是on-line强化学习策略更新中的一种。on-line和off-line最明显的区别就是,在一次learn policy之后,on-line2 确定性策略和随机性策略确定性策略[公式]为一个将状态空间[公式]映射到动作空间[公式]

个人对23种设计模式总结 优缺点分析

在看了《大话设计模式》一书后,总结了一些笔记,如下:关于设计模式的总结1.抽象工厂: Factory提供一个创建一系列或相关依赖对象的接口,而无需指定他们具体的类。针对多级结构.抽象工厂模式除了具有工厂方法模式的优点外,最主要的优点就是可以在类的内部对产品族进行约束。 产品族的扩展将是一件十分费力的事情,假如产品族中需要增加一个新的产品, 则