概述
强化学习笔记(一)基础篇
- 目录
- 1.强化学习相关概念
- 2.强化学习与监督学习和非监督学习的区别
- 3.强化学习分类
- 4.三对重要概念
目录
写在前面:本文系小编学习邹伟老师等人编著的《强化学习》这本书的学习笔记,
文中对于相关概念的解释有些仅是小编个人的理解,
如理解有误,还请各位指正。
1.强化学习相关概念
- 强化学习:通过与环境交互,学习状态到行为的映射。
- 强化学习=智能体+外部环境
- 智能体:由策略、值函数和模型中的一个或多个组成。
- 策略 π(a|s):表示在状态s下,各种可能发生的行为a的概率。
- 确定性策略:根据具体状态输出一个动作。
- 随机性策略:根据状态输出每个动作的概率。
- 值函数
-
状态值函数:遵循策略π,获得的期望回报。
-
状态行为值函数:执行策略π时当前状态s采取某一行为a时获得的期望回报。
-
其中回报Gt为t时刻后所有汇报的有衰减总和, γ gamma γ是衰减系数(也称折扣因子)
-
- 模型:智能体对外部环境的一个建模【非必需】
-
作用:预测
- 1.预测下一个可能状态发生的概率,即状态转移概率。
- 2.预测可能获得的立即回报。
-
状态转移概率:在状态s上采取行为a后下一状态的概率分布。
-
立即回报:在状态s上采取行为a后得到的回报。
-
- 策略 π(a|s):表示在状态s下,各种可能发生的行为a的概率。
2.强化学习与监督学习和非监督学习的区别
- 区别一:数据是否静态。
- 监督学习和非监督学习的数据均为静态的。
- 强化学习的数据是智能体在和环境不断交互,试错的过程中产生的具有高度相关性的动态数据。
- 区别二:样本和训练目标不同
- 监督学习通过对有标记的样本进行训练,旨在预测出新数据样本的标记。【样本有标记,有特征】
- 无监督学习通过对样本进行挖掘,旨在找出样本中潜在的结构信息。【样本无标记,有特征】
- 强化学习的样本仅有一个延迟回报信号,通过与环境交互,在试错的过程中获得从状态到行为的映射。【样本仅有一个延迟回报信号】
3.强化学习分类
强化学习有很多种分类方式,此处仅介绍两种
- 根据是否建立环境动力学模型,分文有模型方法和无模型方法
- 有模型方法:在已知模型的环境种学习和求解的方法(如动态规划)
- 无模型方法 :不依赖环境模型(如蒙特卡罗,时序差分)
- 根据估计方法不同,分为基于值函数的方法、基于策略的方法和行动家-评论家方法。
- 基于值函数的方法:在求解时仅仅估计状态值函数,并不估计策略函数。最优策略在对值函数进行迭代求解的过程中间接得到。
- 基于策略的方法:最优策略或行为通过求解策略函数产生,不求解各状态值的估计函数。
- 行动家-评论家方法:将基于值函数的方法和基于策略的方法相结合进行求解。
4.三对重要概念
- 学习与规划:
- 学习:在环境模型未知的情况下,通过与环境交互、试错来改善策略。
- 规划:已知或近似了解环境的情况下,不再直接与环境交互,改为利用拟合环境模型来改善策略。
- 探索与利用:
- 探索:在某个状态下尝试新的行为。
- 利用,利用已知的信息,选取当前状态下最优的行为争取最大化回报。
- 预测与控制:也称评估与改善
- 预测/评估 :评估当前的策略有多好。
- 控制/改善 :在评估的基础上改善策略,直到该策略能获得最大化回报。
写在最后:
-基础篇的公式乍一看可能不太理解或者看不进去,或许可以尝试先从了解一个算法的理论过程开始比如Q-Learning,然后再回头看基础篇,对于公式的理解应该会更深一些。
最后
以上就是愉快电话为你收集整理的强化学习笔记(一)基础篇目录的全部内容,希望文章能够帮你解决强化学习笔记(一)基础篇目录所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复