David Silver强化学习课程笔记(五)第五课:模型无关的控制
第五课:模型无关的控制 本文主要介绍模型无关的控制,包括同策略方法(On-Policy,也译作“在策略”)和异策略(Off-Policy,也译作“离策略”)方法,由于是模型无关,因此本文聊的是学习(learning),而不是规划(planning)。 1.简介 在第一课中我们说到了预测和控制的区别,这里就不再赘述,下面我们主要聊一下同策略方法和异...