我是靠谱客的博主 自由蜡烛,最近开发中收集的这篇文章主要介绍七大数据陷阱之认知错误(4):黑天鹅与上帝,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

引言

本篇将介绍认知错误里面的最后两个陷阱:黑天鹅陷阱和上帝陷阱,这两部分内容在逻辑学的谬误理论以及科学技术哲学里面讨论得很多,但其实在日常生活中也很常见。比如:某一个小孩子,在动物园看过几次白天鹅,能阅读的书里看的天鹅也都是白色的,以这样的所见所闻,认为世界上的天鹅都是白色的;而实际上澳大利亚是有黑色天鹅的;那么这个小孩子的这种想法就意味着掉进了黑天鹅陷阱。再比如,有人说孙悟空是存在的,当然你可以去反驳说:没有存在的证据啊!但这个人也会继续反驳:有不存在的证据么?–这就是上帝陷阱。

再简言之,这次的covid-19疫情就是一个黑天鹅事件,而声称某些地区是病毒的发源地很可能是上帝陷阱。

当然,上面的例子,还是粗糙一些,具体可看以下的详细介绍。此处略微概括一下:黑天鹅陷阱问题是–把个案当成了普遍现象;上帝陷阱—把论证至于感官,意识以及可触及的事实之外。

陷阱1D:黑天鹅陷阱

时下流行的想法:人们倾向于把将数据寄托为一种检验生活或世界的真相的工具,以发挥其最大的作用。不难理解这个想法的缘由。比如, 我想知道一个月有多少辆自行车穿过弗里蒙特桥, 所以我从政府相关部门的网站上下载了数据,进行了一个非常简单的计算,得到了答案。

那么问题来了:这就是全部的答案么?! 每当面对这种看似并非无用的信息,不得不考虑:确定性答案真的是从数据中得到的最佳之物么?明智的说,并非如此。而对于确定性答案的执着,源自人类共享的一种心理缺陷。

其实恰恰相反,可能最好的数据处理结果给人的启示是:我们之前秉持的哪些信念是不正确的?还有哪些问题是我们尚未触及的?以此可以渐渐破掉人们自我中一些近似狂妄的执念。

在解释新的数据陷阱之前,需要区分一下处理数据时要注意的两种陈述。 奥地利出生的科学技术哲学家卡尔·波普尔( Karl Popper)博士在他1959年发表的,关于科学认识论的重要著作《科学发现的逻辑》中阐述了这两者命题的类型:单称命题和全称命题。这方面的详细内容,现在各种逻辑学导论里都有介绍。

**单称命题:**例如:“那只天鹅是白色的”,是对我们生活的世界的基本观察,而这是一个经验的事实。
**全称命题:**如“所有的天鹅都是白的”,是这样的一种假设或理论— 它把世界分成两种单称命题:一种是全称命题适用的, 另一种是全称命题不使用的。 如果在现实世界中观察到这些不适用的后一种说法,就会证伪全称命题在被创建时所声称的普遍说法。
波普尔教给我们的是,再多的对单个命题的确证观察,也不能证明一个普遍命题是正确的。 无论我们在搜索过程中遇到多少白天鹅,我们都无法证明宇宙中不存在非白的天鹅。

但问题是:它确实给人这样的感觉。我们一生只看到白天鹅,然后又遇到了另一只白天鹅,于是这种认为所有的天鹅都是白色的信念变得更加坚定。 这便是归纳法,即从特殊到一般的思维方式和论证方法。它对于形成检验的假设非常有用,却不能证明那些假设的对或错。 但它确实能给我们一种确定性的感觉或错觉,这有时候会导致非常坚定的信念或执念。

正如波普尔所指出的,单纯的信念不能成其为一种理论进入所谓科学的知识体系。 这已经属于信仰了,固然信仰本身并没有什么错;只是不能被用来作为论证方法使用。

另一方面,只要观察到一次非白的天鹅,就能驳倒适才关于白天鹅的全称命题。 1697年,Willem de Vlamingh带领一群荷兰探险者来到西澳大利亚,他们成为第一批观察到黑天鹅的欧洲人, 这立即推翻了当时人们普遍认为所有的天鹅都是白色的看法
在这里插入图片描述

就像当时欧洲人从对白天鹅的反复观察中,而错误地归纳到认为所有的天鹅都是白色的观点一样, 我们经常假设我们在数据中遇到的单称的陈述或个案就可以验证普遍真理。 我们会过度推断,认为在现有数据中看到的东西,远远超出了它发生在时空条件,会有更深远的适用范围。 可问题是,何以如此肯定呢?固然在这当中也有很多重复的观察,但这种重复并没有超出局限的边际。

结合前几篇文章提及的例子, 可以再生动的认识一下是人们如何滥用归纳法的:

  • 这不仅仅是2014年4月有多少辆自行车穿过弗里蒙特桥,而是每天有多少辆自行车穿过这座桥。

  • 这不仅是特定客户的偏好,也是所有其他潜在客户的偏好。

  • 不仅仅是试点生产线在认证期间有高的产量,整个过程在全量生产时也会有高的产量。

  • 不仅仅是某只共同基金去年的表现超过了所有其他基金,而且它将是未来最好的投资。在这里插入图片描述

人们多久会发现这些从特殊到一般的归纳跳跃是错误的呢? 这就好像我们的大脑中有一个默认的设定,假设我们发现的任何事实都是宇宙不可改变的属性, 在未来肯定会适用。这的确是我们思考数据运用时,存在的一个细微而严重在的错误。 当招股说明书上明明写着“过往业绩”的警告信号时–提示人们这不足以预测未来的会被,但我们还是会掉进天鹅陷阱。真是无奈啊。

这就是为什么正确理解单称命题和普遍命题之间的区别是如此重要的原因。任何时候,当我们主动决定在构建全称命题时,应该致力于构建可证伪的全称命题。 也就是说,能够证明我们的假设是错误的所有可能的单称命题的集合一定不能是空的。 “所有的天鹅都是白色的”这一普遍说法可以并被证明是错误的。这是件好事,因为在这种背景下,存在着明确判准,否则会陷入非常混乱的境地当中,下一节会细谈。

但是什么样的陈述是不可证伪的呢?难道理论上不可能证明某人说的是错的吗? 这种情况是存在的。波普指出,基本的存在主义命题,例如:“某某东西存在”,实际上是不可证伪的。原因如下:

以单称命题“存在一只黑天鹅”为例。“证明它是真的很容易——我们需要做的就是找到一个。 但如果我们做不到呢?我们证明了这个说法是错误的吗?事实上,我们没有,因为尽管我们做了很多搜索, 但总有可能是我们错过了它,或者它在某个我们还没有找到的地方。至此已经是哲学层面的思辨了,会有一点难度, 但还是必要的,而为了解释清楚这个问题,此处需要引出认知错误系列的最后一个角度–上帝陷阱。

陷阱1E:可证伪性与上帝陷阱

在这里插入图片描述
上帝存在”这句话不属于科学或数据分析的范畴:无论我们做什么,我们都不能证明它是错的。 她/他/它可能只是躲着我们,或者只是我们的感官无法察觉。这就是为什么当人们用科学或数据试图证明上帝不存在的时候, 实在令人感到困扰,这真是一个毫无意义的练习,如上图中这种宣传,因为这个假设一开始就不能被证伪;这是一个基本的存在主义陈述,请仔细思考。 如果你不信,千万不用从论证角度来说没有证据,因为这本不是论证问题。

但另一方面,如果你相信它,也不要滔滔不绝地说一大堆无法证伪的说法, 比如上帝是如何创造宇宙的,也不要称它为“科学”,因为真的与科学无关。 这就是为什么在1982年,麦克莱恩诉美国的阿肯色州教育局案中,法官威廉·奥弗顿(William Overton)裁定:学校不能把神创论作为科学来教授。除此之外,法院当然发现,神造论者所做的主张不可证伪,不能以科学对象来对待。五年后,当一个类似的发生在路易斯安那州的案件出现在最高法院面前时,最高法院也如是判决。

这就是我所说的数据分析中的“上帝陷阱”的双重本质——要么我们形成一个不可证伪的假设, 要么我们尽最大努力保护我们的假设不被任何可能的论据驳倒。

与那些喜欢卷入宗教争论的人不同,具备严格科学素养的人总是积极的寻求来证明自己的假设是错误的, 勇于揭穿自己的不明之处,当然,对其他的科学理论,也是同样的态度。

如果你仔细想想,我们实际上应该感到更兴奋:是数据证明了我们所采用认为正确的所谓普遍真理是错误的,并提醒我们知识需要更新了。 得到确凿的证据的确是件好事,但是,当我们意识到自己的错误时,知识才会有飞跃的可能,因此面对这样的数据时,应该感到幸运。

但其实可以做到这样的人也不多,而且做到也不容易。接受事实或真理往往伴随着痛苦,一些人宁愿选择拒绝或忘记。 但现实有一种力量,可以不断穿破人们的幻想与执念,而与事实直接接触,因此人们迟早会清晰的面对认知错误,而承认又一次掉进了认知陷阱。

如何规避天鹅陷阱和上帝陷阱

我们如何避免陷入这两种认知陷阱? 让我们先来大致还原一下陷入麻烦的情形,这个过程和思维通常是这样的:

  1. 面对基本问题➔2.开展数据分析➔3.创建单称命题➔{知道归纳飞跃}➔4.对思维推广后大的全称命题产生信念

可以想想前文中的例子,在此让我们回顾一下在弗里蒙特桥自行车案例中,某些不太认真的人是如何体现上述过程的:

1.我听说弗里蒙特桥上有个自行车计数器。这太酷了,我想知道我能从我所在城市的乘车情况中学到什么。
2.我从西雅图交通部网站下载了一些数据,看将起来…
3.2014年4月,49,718人从东面穿过,44,859人从西面。
4.嗯,那么从桥上往东走的自行车比往西的多。我想知道这是为什么?也许有些乘客早上穿过马路去上班,然后坐公共汽车回家。
相信大家已经觉察到第4步的脑洞了吧。思维跳跃的证据可以在一些看似无关紧要的事情上找到—-时间限制。 在上面的步骤3中,我们提到“穿过”桥的自行车(根据测量和记录)的时间时2014年4月。 但在第4步,时间限制没有了,暗示是所有时间,可见这种思维方式于此又一次陷入了归纳谬误的陷阱。

相反,建议的工作流和思维方式是这样的:

1.确立基本问题➔2.开展数据分析➔3.创建单称命题➔4.建立可证伪的全称命题➔5.尽量寻找可证伪处

基于该方法,刚才过桥案例,可以如此修正:

1.一个月有多少辆自行车穿过弗里蒙特桥?
2.我从西雅图交通部得到了一些数据,开始处理…
3.数据显示,2014年4月,自行车计数器在东行记录了49,718次,西行记录了44,859次。
4.嗯,所以那个月往东的计数器读数比往西的要多。我不知道是不是所有月份都看到了更多的自行车流向东部而非西部?
5. 让我查查是不是真的这样。

进一步分析表明,确实有问题,如图在这里插入图片描述

如此看来,在过去的几年里,这个假设似乎是错误的——西行(“弗里蒙特桥SB”)的自行车计数器的读数大体比东行(“弗里蒙特桥NB”)的多, 而且可以看到夏季几个月,东行方向会有读数较高的季节性趋势。要想知道2014年4月发生了什么,则需要观察未来的数据, 来看看这个季节性趋势是否会持续,或者情况是否会发生变化。

总结

至此,可以看到我们看待数据的方式和谈论数据的措辞有什么微妙的变化了吧!这些细微的变化可以保证更少的认知错误, 更好的处理后续问题,以及更准确的理解我们周边的世界。还要注意的是,为了避免陷入数据与现实的差距问题,我们是如此小心翼翼,用词严谨 刚才用词一直是—自行车计数器读数,而不是真正的自行车过桥数量。

到这里,七大数据陷阱中的认知错误就全部介绍完了,下一篇起,开始介绍七大数据陷阱中的技术问题。

想获取更多内容,请关注海数据实验室公众号。
本期分享到这里,我们会每天更新内容,咱们下期再见,期待您的再次光临。有什么建议,比如想了解的知识、内容中的问题、想要的资料、下次分享的内容、学习遇到的问题等,请在下方留言。如果喜欢请关注。在这里插入图片描述在这里插入图片描述社群推荐:

更多有关数据分析的精彩内容欢迎加入海数据在线数据分析交流群,有什么想法

或者疑问都可在里面提出,与同行零距离交流,共同成长进步,请识别下面二维码

加火星小海马微信,邀你进群。在这里插入图片描述

最后

以上就是自由蜡烛为你收集整理的七大数据陷阱之认知错误(4):黑天鹅与上帝的全部内容,希望文章能够帮你解决七大数据陷阱之认知错误(4):黑天鹅与上帝所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(46)

评论列表共有 0 条评论

立即
投稿
返回
顶部