强化学习笔记------第一章----强化学习概述(超详细)
强化学习讨论的问题是一个智能体(agent)怎么在一个复杂不确定的环境(environment)里面去极大化他能获得的奖励。首先,我们可以把强化学习和监督学习做一个对比。例如图片分类,===监督学习(supervised learning)==指的是我们有一大堆标注的数据,如飞机、汽车等等,这些图片都要满足独立同分布(i.i.d),意思就是他们之间是没有关联的。然后我们训练一个分类器,为了分辨出这个图片是车辆或是飞机,我们需要将真实的标签给神经网络,去训练这个网络,当网络做出了一个错误的预测,就