强化学习笔记-强化学习概述机器学习分类强化学习与监督学习的异同点强化学习基本原理强化学习解决的是什么样的问题强化学习分类请分别解释随机性策略和确定性策略回报、值函数、行为值函数三个指标的定义是什么请分别解释以下三对概念:学习与规划、探索与利用、预测与控制小结
强化学习是机器学习的一种,它通过与环境不断地交互,借助环境的反馈来调整自己的行为,使得累积回报最大。强化学习要解决的就是决策类问题,即求取当前状态下最优行为或行为概率。强化学习包括智能体和环境两大对象,智能体是算法本身,环境是与智能体交互的外部。智能体通过行为a作用于环境,环境反馈给智能体改变前后的状态s和s‘,以及回报r。