求解多变量非线性全局最优解_3.6 最优策略和最优值函数
我们知道一个强化学习问题的目的是:求解一个策略以尽可能多的获得长期回报。对于一个有限状态的MDP问题,实际上是具有最优策略的。竟然说最优,当然就有对比。就像我们利用C++标准库函数来对多个对象实例进行大小排序时,那就得传一个函数给库函数告诉它大小是怎么定义的。什么叫我比你大?策略也一样,一个策略比另一个策略好,好是什么含义?我们的定义是如果策略 在所有状态 下的期望回报都比策略 大,那么就说策略...