概述
我们知道一个强化学习问题的目的是:求解一个策略以尽可能多的获得长期回报。对于一个有限状态的MDP问题,实际上是具有最优策略的。竟然说最优,当然就有对比。就像我们利用C++标准库函数来对多个对象实例进行大小排序时,那就得传一个函数给库函数告诉它大小是怎么定义的。什么叫我比你大?策略也一样,一个策略比另一个策略好,好是什么含义?我们的定义是如果策略
意思也就是所有策略中最优策略对应的值函数就是最优值函数。
最优策略也具有相同的最优动作值函数,表示为
贝尔曼最优方程
既然最优值函数
过程中首先带入了
可以看出最优贝尔曼方程和贝尔曼方程的最大区别就是分别多了最大化的操作。学习后面的知识就能了解,Q学习实际上是利用了最优贝尔曼方程。
备份图
最优贝尔曼方程的备份图表示如下:
从备份图可以看出,每次在选择动作时,我们并不是根据策略来求一个期望,而是用了最大化操作。所以我们的最优贝尔曼方程中没有直接和
求解最优值函数
对于有限状态的MDP问题来说,(3)具有唯一解。实际上表达式(3)定义了关于状态
通过上面方法显式的求解贝尔曼最优方程来找到最优策略,是一种思路。但是实际当中几乎很少这样做。归结起来主要有三个难点:
- 我们需要精确的知道环境的模型
- 我们需要足够的计算资源来完成求解
- 要满足马尔科夫性
实际中这三点很难同时满足的。比如对于西洋棋游戏,满足条件1和3。但是这个游戏具有多达
很多决策方法都可以看成是近似求解贝尔曼最优方程的某种形式。比如启发式搜索可以看成是对公式(3)进行若干次展开,到了一定深度,形成一棵树,然后用启发式评估函数来近似叶子节点的最优值函数。动态规划方法和贝尔曼最优方程联系更为紧密。许多强化学习方法也是在近似求解贝尔曼最优方程。
求解最优策略
最优策略求解分两种情况,分别是已知最优状态值函数
- 已知
为了求解最优策略,只需要做一步搜索就行。也就是在
- 已知
已知
最后
以上就是健忘小兔子为你收集整理的求解多变量非线性全局最优解_3.6 最优策略和最优值函数的全部内容,希望文章能够帮你解决求解多变量非线性全局最优解_3.6 最优策略和最优值函数所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复