我是靠谱客的博主 喜悦橘子,最近开发中收集的这篇文章主要介绍终极算法——第三章:符号学派:休谟的归纳问题,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

本文为阅读总结个人认为书里概念性的、对本人有帮助的内容,仅供参考。

你是理性主义者还是经验主义者?

理性主义者认为,感官会欺骗人,而逻辑推理是通往知识的唯一可靠的道路。经验主义者认为所有推理都不可靠,知识必须来源于观察及实验。

为了得出符合逻辑的论断,休谟借用了洛克开创的经验主义思想,并提出一个问题,这个问题在所有领域的知识中就像一把达摩克利斯之剑,从最琐碎的领域到最先进的领域,都是一个时刻存在的问题:在概括我们见过的东西以及没见过的东西时,怎样才能做到合理?从某种意义上说,每种学习算法都在尝试回答这个问题。

没有免费午餐定理(No Free Lunch,简称NFL)是wolpert和Macerday提出的“最优化理论的发展”之一。这是最优化理论的发展之一。该定理的结论是,由于对所有可能函数的相互补偿,最优化算法的性能是等价的。该定理暗指,没有其它任何算法能够比搜索空间的线性列举或者纯随机搜索算法更优。该定理只是定义在有限的搜索空间,对无限搜索空间结论是否成立尚不清楚。

1)对所有可能的的目标函数求平均,得到的所有学习算法的“非训练集误差”的期望值相同;

2)对任意固定的训练集,对所有的目标函数求平均,得到的所有学习算法的“非训练集误差”的期望值也相同;

3)对所有的先验知识求平均,得到的所有学习算法的的“非训练集误差”的期望值也相同;

4)对任意固定的训练集,对所有的先验知识求平均,得到的所有学习算法的的“非训练集误差”的期望值也相同。

NFL定理表明没有一个学习算法可以在任何领域总是产生最准确的学习器。不管采用何种学习算法,至少存在一个目标函数,能够使得随机猜测算法是更好的算法。https://baike.baidu.com/item/没有免费午餐定理/8848514?fr=aladdin

在机器学习领域,NFL的意义在于告诉机器学习从业者: 假设所有数据的分布可能性相等,当我们用任一分类做法来预测未观测到的新数据时,对于误分的预期是相同的。https://www.douban.com/note/628764344/

简而言之,NFL的定律指明,如果我们对要解决的问题一无所知且并假设其分布完全随机且平等,那么任何算法的预期性能都是相似的。https://www.douban.com/note/628764344/

NFL:当我们知道一个问题的具体假设时,那么就一定存在一个算法的预测性能优于其他算法性能;然而当我们对一个问题一无所知,且该问题的假设是在所有数据假设上等可能地分布的情况下,那么不可能存在一个最优算法。

牛顿在《自然哲学的数学原理》一书中阐述了推理的四条法则。其中第三条是关键法则:我们见过的所有真实的东西,在宇宙中也是真实的。这句话是牛顿革命以及现代科学的核心。

牛顿法则是机器学习的第一个不成文规则。我们归纳自己能力范围内、应用最广泛的规则,只有在数据的迫使下,才缩小规则的应用范围。

合取概念:conjunctive concept。

首先做有条件的假设,如果这样无法解释数据,再放松假设的条件,这就是典型的机器学习。

“分而治之”——科学家战术手册中最古老的策略。通过该方法来发现规则的创意来自理夏德·米哈尔斯基,他是波兰的以为计算机科学家。1970年移民美国之后,他和汤姆·米切尔和杰米·卡博内尔一起创立的机器学习的符号学派。

学习就意味着将细节遗忘,只记住重要的部分。计算机就是最大的白痴专家:它们可以毫无差错地将所有东西记住,但那不是我们想让它做的。

过拟合问题是机器学习中的中心问题。好的学习算法永远在无知和幻觉(过拟合)的夹缝中行走。

我们的信仰建立在自己的经历之上,这会让我们对世界的理解不完整,而且也容易过早得出错误的结论。

误差或偶然事件会让你无法找出整套规律。

当你有过多假设,而没有足够的数据将这些假设区分开来时,过拟合问题就发生了。

学习就是你拥有的数据的数量和你所做假设数量之间的较量。

对于机器学习来说,对不可见数据的测试是必不可少的,因为这是判断学习算法是否过拟合的唯一方法。

归纳仅仅是逆向演绎,就和减法是加法的逆运算,或者积分是微分的逆运算一样。

我们以越多的规则和事实作为开头,也就有越多的机会运用“逆向演绎”归纳新的规则。我们归纳的规则越多,我们能归纳的规则也就越多。这是知识创造的良性循环,只受过拟合风险和计算成本的限制。

逆向演绎的另外一个局限性就在于,它涉及很密集的计算,因此很难扩展到海量数据集中。因为这些原因,符号学家选择的算法是决策树归纳。

拥有这个属性(仅且必须选择一类)的概念被称为类集,而预测类集的算法成为分类器。

分类器是机器学习最为普遍的方式。

符号学派的核心理念就是,所有和智力相关的工作都可以归结为对符号的操纵。

心理学家大卫·马尔称,每个信息处理系统应该经过三个不同水平的研究:该系统解决所解决问题的基本属性,用来解决问题的算法和表示方法,以及这些算法和表示方法如何实现。

符号主义机器学习是人工智能知识工程学派的一个分支。

因为其起源和指导原则,符号学派和其他学派相比,和人工智能的其他方面关系更为密切。如果计算机科学是一块大陆,符号主义机器学习和知识工程学会有很长的交界线。知识通过两个方向进行交易——手动输入的知识,供学习算法使用;还有归纳得出的知识,用来加入知识库中,但最终理性主义者和经验主义者的断层线会刚好络在这条界线上,想越过这条界线则不容易。

符号主义是通往终极算法的最短路程。

尽管决策树很受欢迎,但逆向演绎是寻找主算法更好的出发点。因为逆向演绎具备这样的关键属性:可以轻易地将知识并入主算法中,而且我们指导休谟问题使这一点变得很有必要。

逆向演绎就像一个超级科学家,系统查看论据,思考可行归纳法,整理最有利的证据,然后将这些和其他论据一起,进一步提出假设——所有过程都基于计算机的速度。

逆向演绎也有一些严重的缺点。可行的归纳法数量广泛,除非我们和最初知识保持亲密关系,否则很容易在空间中迷失。逆向演绎容易被噪声迷惑:我们怎样才能知道,哪些演绎步骤被漏掉了,如果前提或者结论本身就已出错?最严重的是,真正的概念很少能通过一个规则集来定义。

联结学派对符号学派尤其不满。

终极算法

最后

以上就是喜悦橘子为你收集整理的终极算法——第三章:符号学派:休谟的归纳问题的全部内容,希望文章能够帮你解决终极算法——第三章:符号学派:休谟的归纳问题所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(78)

评论列表共有 0 条评论

立即
投稿
返回
顶部