我是靠谱客的博主 标致小霸王,最近开发中收集的这篇文章主要介绍蒙卡罗树搜索(MCTS)——关于对UCB的理解蒙卡罗树搜索(MCTS)——关于对UCB的理解对于UCB的几项疑惑1. 探索2. 利用3. 矛盾点4. 根据公式理解平衡原理5.注意,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

蒙卡罗树搜索(MCTS)——关于对UCB的理解

UCB即上限置信区间

对于UCB的几项疑惑

上节我们提到UCB可以平衡UCT算法的利用和探索。但是对于初学者小编来说,首先提出以下几项不成熟的疑惑:

  1. 虽然说过广搜探索,深搜利用,但是他们各自的工作任务具体是什么?
  2. 为什么在蒙卡罗树这里强调要平衡探索和利用?
  3. 平衡是如何实现的?
    根据上述的几个问题,小编续接蒙卡罗树搜索对UCB展开了学习。

1. 探索

1)工作任务

  • 在蒙卡罗树搜索(MCTS)的过程中随机选择不同的节点,根据每个节点得到的更精确的汇报概率估计,从而找到真实回报更高的节点。

2)缺陷

  • 因为资源有限,所以会损失掉选择高回报节点的机会。

2. 利用

1)工作任务

  • 选择之前回报概率最高的节点,以获得更高的累计回报。

2)缺陷

  • 因为回报的概率是随机的,对于每个节点的回报概率估计并不准,当前所选节点可能不是回报更高的那个。

3. 矛盾点

  • 蒙卡罗树搜索讲究在有限的时间和有限的次数内寻找最优解,所以选择节点去尝试的次数是有限制的,故探索和利用是相互矛盾的,加强了一方,另一方必被削弱。因此要想回报最大,必须要平衡好探索和利用。

4. 根据公式理解平衡原理

接上节,我们来重新分析一下UCT的公式。
UCB公式

  • 公式第一项的含义是期望回报,代表着利用,即贪婪策略,但是由于只看了当前这层节点的回报概率,所以容易陷入到局部极值中。
  • 公示第二项表示对节点了解程度的指标,代表探索。如果对一个节点了解的太少,那么它的平均回报以及它此时的置信度很低,而且不确定度高,置信区间大。但是算法好奇呀,我越不了解你,越要去了解你,所以这个节点就被算法选中了,即使他的平均回报很低。

所以至此,我终于理解了上节所说的常数c越大越偏向于广搜,越小越偏向于深搜了,以上节的三个节点计算结果7/10对应0.55c,5/8对应0.62c,0/3对应1c为例:

  • 如果常数c=0.5,那么第二项结果的大小相比于第一项的数值来说微不足道,所以探索的影响没有利用的影响大,算法整体倾向于利用。第一个节点的回报是0.975,第二个节点的回报是0.935,第三个节点的回报是0.5,故选择第一个节点探索。
  • 如果常数c=20,那么第一个节点的回报是11.7,第二个节点的回报是13.025,第三个节点的回报是20,。此时对于第二项来说,第一项的结果非常微不足道,此时的算法更倾向于探索,所以选择了更不了解的第三个节点。

上述加粗字体是在小编写博客期间再度反思的一次临场顿悟,可能这个说法并不严谨或许理解有误,所以欢迎大家斧正小编。

5.注意

  1. 平均回报(第一项)的取值要进行限制,因为要保证第一项和第二项在同一个量级中。
  2. 可尝试次数要大于节点综述,因为每个节点至少要被选择一个,否则UCB就成了一个纯探索策略。

根据上述注意事项,小编在此提出一个疑惑:如果说UCB公式保证第一项和第二项在同一个量级中,那么对于常数c的取值在某一程度上是否要进行一定的限制呢?上述0.5->20的取值跨度是否存在不合理的现象?

感谢您的阅读!

本文的学习内容参考了 UCB公式的理解 这篇文章
本文上接 蒙卡罗树搜索(MCTS)

最后

以上就是标致小霸王为你收集整理的蒙卡罗树搜索(MCTS)——关于对UCB的理解蒙卡罗树搜索(MCTS)——关于对UCB的理解对于UCB的几项疑惑1. 探索2. 利用3. 矛盾点4. 根据公式理解平衡原理5.注意的全部内容,希望文章能够帮你解决蒙卡罗树搜索(MCTS)——关于对UCB的理解蒙卡罗树搜索(MCTS)——关于对UCB的理解对于UCB的几项疑惑1. 探索2. 利用3. 矛盾点4. 根据公式理解平衡原理5.注意所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(44)

评论列表共有 0 条评论

立即
投稿
返回
顶部