清新自行车

文章
7
资源
0
加入时间
2年10月24天

on-policy与off-policy;确定性策略与随机策略1 on-policy与off-policy2 确定性策略和随机性策略

1 on-policy与off-policy之前一直搞不清楚on-policy和off-policy是什么区别,在查阅了各种公众号和博客、论坛之后,决定总结一下on-policy和off-policy的区别。首先,如下图所示,on-policy和off-policy都是on-line强化学习策略更新中的一种。on-line和off-line最明显的区别就是,在一次learn policy之后,on-line2 确定性策略和随机性策略确定性策略[公式]为一个将状态空间[公式]映射到动作空间[公式]

个人对23种设计模式总结 优缺点分析

在看了《大话设计模式》一书后,总结了一些笔记,如下:关于设计模式的总结1.抽象工厂: Factory提供一个创建一系列或相关依赖对象的接口,而无需指定他们具体的类。针对多级结构.抽象工厂模式除了具有工厂方法模式的优点外,最主要的优点就是可以在类的内部对产品族进行约束。 产品族的扩展将是一件十分费力的事情,假如产品族中需要增加一个新的产品, 则

Shell编程一、基本介绍二、Shell脚本的执行方式三、变量四、运算符五、条件结构六、循环结构七、函数八、综合案例(数据库备份)

Shell是一个命令行解释器,它为用户提供了一个向Linux内核发送请求以便运行程序的界面系统级程序。用户可以用Shell来启动、挂起、停止甚至是编写一些程序。对于Linux运维工程师来说,编写Shell程序来进行服务器管理。对于JavaEE和Python程序员来说,编写Shell程序来进行服务器的维护或者定时备份数据库。对于大数据程序员来说,编写Shell程序来管理集群。LinuxShell中的变量分为系统变量和用户自定义变量。系统变量3.2.1基本语法定义变量变量名=值。...

javadoc生成API文档时 错误: 编码GBK的不可映射字符

2018-07-03问题:     项目是utf-8编码的,生成文档时(项目--export--java--javadoc--finish)出现  错误: 编码GBK的不可映射字符;解决:     项目--export--java--javadoc--next--next--在最后一步,VM设置中(VM options...)中,添加:    -encoding utf-8 -charset ut...

机器学习之线性回归第一节机器学习介绍

什么是机器学习?机器学习是一种实现人工智能的方法。从数据中寻找规律,建立关系,根据建立的关系去解决问题。机器学习的应用场景数据挖掘计算机视觉自然语言处理证券分析医学诊断机器人DNA测序实现机器学习的基本框架将训练数据喂给计算机。计算机自动求解数据关系,在新的数据上做出预测或给出建议。机器学习的类别监督学习训练数据包括正确的结果无监督学习训练数据不包括正确的结果半监督学习训练数据包括少量正确的结果强化学习根据每次收获的奖惩进行学习,实现优化。机器学习的类别(图解)