Bourne强化学习笔记1:用简单例子说明Off-policy的思想与使用方法
本着ADEPT(Analogy / Diagram / Example / Plain / Technical Definition)的学习规律,本人给出直观理解、数学方法、图形表达、简单例子和文字解释,来介绍off-policy,而on-policy也将在本讲解过程中获得理解。( 在此假设大家已了解Markov Process Decision,动作概率,转移概率,Monte Carlo Met...