我是靠谱客的博主 魔幻小甜瓜,最近开发中收集的这篇文章主要介绍强化学习笔记(一)强化学习基本概念强化学习笔记目录什么是强化学习强化学习的基本元素强化学习的分类,觉得挺不错的,现在分享给大家,希望可以做个参考。
概述
强化学习笔记目录
- 强化学习基本概念
- 马尔可夫决策过程
- 动态规划
- ⽆模型预测⽅法
- ⽆模型控制⽅法
- 基于逼近器实现的强化学习算法
- 策略梯度⽅法
- 基于博弈理论的强化学习
- 强化学习基线算法
- 逆强化学习
- 深度强化学习
什么是强化学习
强化学习是一类基于最大化奖励的决策算法。
面临的主要困难
- 动作集不好定义
- 奖励不好设定
- 奖励可能非常稀疏
- 只适用于可以进行大量实验的场景
序贯决策过程
智能体在特定环境中产生一系列的动作,而这些动作会改变智能体的状态。
强化学习与其他机器学习算法的区别
- 产生的动作可能会影响数据的分布
- 不一定有即时的反馈
强化学习的基本元素
- 状态
- 状态集:分离散状态集和连续状态空间
- 动作
- 动作集:分离散动作集和连续动作空间
- 策略:状态集到动作集的映射;分确定策略和不确定策略
- 状态转移/环境:描述智能体在给定动作下的状态变化;分离散时间和连续时间;分确定型状态转移和随机型状态转移
- 奖励:环境对智能体的状态或动作好坏程度的反馈
- 回报:从某一初始状态出发的轨迹上的奖励累加和
- 折扣因子 γ gamma γ:未来奖励对当前影响可能需要存在一定的折扣
- 价值:智能体在当前状态下回报的期望
- 最优价值:马尔可夫决策中有且仅有一个
- 最优策略:可能有一族
强化学习的分类
从得到最优决策的方法分类
基于值的
- Q-learning
- Sarsa
- TD
- DQN
基于策略的
- policy gradient
- actor-critic
直接优化动作序列
不借助价值函数和策略函数,通常依赖于模型
- 蒙特卡洛树搜索
- DDP
- iLQR
从决策与数据的交互看
在线学习
不依赖模型,智能体使用最新的策略
离线学习
利用模型或收集的观测数据进行训练
从是否有模型看
基于模型的
利用模型或模型生成的数据训练,可能需要利用观测数据构造模型
不基于模型的
直接利用观测数据训练价值或策略
最后
以上就是魔幻小甜瓜为你收集整理的强化学习笔记(一)强化学习基本概念强化学习笔记目录什么是强化学习强化学习的基本元素强化学习的分类的全部内容,希望文章能够帮你解决强化学习笔记(一)强化学习基本概念强化学习笔记目录什么是强化学习强化学习的基本元素强化学习的分类所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复