概述
转载请注明出处:http://blog.csdn.net/dongdong9223/article/details/52242701
本文出自【我是干勾鱼的博客】欢迎大家关注我的微信公众号,微信搜索“东冬咚”或者“haidongzhisheng”,更多精彩内容尽请期待!
今天,大数据是目前炒得比较火的一个话题。今天给大家介绍一部书,《大数据时代》,浙江出版社,2013。
这本书的两位作者,一位是迈尔-舍恩伯格,他是牛津大学网络学院互联网研究所治理与监管专业的教授,另一位是库克耶,他是《经济学人》数据编辑,还曾任职于《华尔街日报》(亚洲版)和《国际先驱论坛报》。
1 一场生活、工作与理念的大变革
大数据为人们开启了一个崭新的时代。
就像望远镜让我们能感受宇宙,显微镜让我们能观测微生物一样。
引言中,作者介绍了大数据时代通过对大规模数据的有效分析所能达到的惊人效果。大数据所引起的变革是方方面面的,能够涉足公共卫生,商业领域,传统思维,大数据开启了重大的时代转型,为世界的行业变革写下浓重的一笔。
在文中,作者开头便列举了大数据被运用于公共卫生领域而且效果显著的例子。
2009年出现的甲型H1N1流感传播迅速,美国同所有国家一样,非常需要医生在发现病情之后迅速统计,但这是很难的,因为患者从生病到去医院,以及信息的统计上报都有一定的滞后,经常是通告新流感病毒时已经有一到两周的延迟了。在这方面谷歌公司所运通的大数据分析派上了用场,因为谷歌公司保存着大量的数据检测词条。
谷歌公司为了测试这些检测词条,总共处理了4.5亿个不同的数据模型。再将得到的预测与2007年、2008年美国预防中心记录的流感病毒进行了对比后,谷歌公司发现,他们的软件发现了45条检测词条的组合,将它们用于一个特定的数学模型后,他们的预测与官方数据的相关性高达97%。
大数据所呈现的力量是过去所未有的。
2 大数据时代的思维变革
IBM资深大数据专家杰夫乔纳斯(Jeff Jonas)曾经提出过要让数据所化,其实是变革固有的数据思维。这部分主要阐述了大数据时代更好融入其中所需要变革的三种思维:
不是随机样本,而是全体数据
不是精确性,而是混杂性
不是因果关系,二是相关关系
不是随机样本,而是全体数据
过去,因为技术手段、条件的限制,精确分析大量数据是很难的。但是现在科技发展迅猛,技术手段非常强大,已经有了分析整体数据的条件,摒弃不得已而为之的随机样本分析也就成为了可能。这里列举了人口普查的例子。
美国在1880年进行的人口普查,耗时8年才完成数据汇总。因此,他们获得的很多数据都是过时的……后来,美国人口普查局就和当时的美国发明家赫尔曼-霍尔瑞斯(Herman Hollerith)签订了一个协议,用他的穿孔卡片制表机来完成1890年的人口普查,经过大量的努力,霍尔瑞斯成功地在一年时间内完成了人口普查的数据汇总工作。
不是精确性,而是混杂性
精确性同样是信息匮乏和技术落后时代的产物。如果只将5%的精确的结构化数据存放于传统的结构化数据库中,那么剩余的95%的非结构化数据都会因为被束之高阁,信息结果也就毫无意义。
麻省理工学院(MIT)的两位经济学家,阿尔贝托-卡瓦略(Albert Cavell)和罗伯托-里哥本那(Oberto Rigobon)就对此提出了一个大数据方案,那就是接受更混杂的数据。通过一个软件在互联网上收集信息,他们每天可以收集到50万种商品的价格。收集到的数据很混乱,也不是所有数据都能轻易进行比较。但是把大数据和好的分析法相结合,这个项目在2008年9月雷曼兄弟破产之后很开就发现了通货紧缩趋势,然而那些依赖官方数据的人知道11月份才知道这个情况。
不是因果关系,二是相关关系
在未来的日子里,我们只需要知道“是什么”,而没必要知道“为什么”。因为“为什么”正是我们要揭示“是什么”才竭力寻找的,未来社会食物背后原因的重要性不再那么强烈,因为数据可以自己“发声”。
2004年,沃尔玛对历史交易记录这个庞大的数据库进行了观察,这个数据库记录的不仅包含每一个顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时间,甚至购买当日的天气。
沃尔玛公司注意到,每当在季节性飓风来临之前,不仅手电筒销售量增加了,而且POP-Tarts蛋挞(美食含糖早餐零食)的销售量也增加了。因此,当季节性风暴来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便行色匆匆的顾客从而增加销量。
3 大数据时代的商业变革
商业是一切变革的驱动力,谈到变革不可能不提及其在商业领域的步伐。
一切皆可量化
量化其实就是数据化。新的信息化时代的发展需要大量数据的测量、记录及预测。目前,信息技术(Information Technology)的发展还主要在“T”上。现在,是时候把目光转向“I”了。
马修·方丹·莫里(Matthew Fontaine Maury)本来是一名美国海军军官,1839年受伤后进了办公室,是图表和仪器厂的负责人。
作为一名年轻的航海家,莫里曾经对船只在水上绕弯儿不走直线而感到十分不解。当他向船长们问及这个问题时,他们回答说,走熟悉的路线比冒险走一条不熟悉而且可能危险的路线要好得多。
从航行经验上来看,他知道这并不完全正确。但他从老船员身上学到了潮汐、风和洋流的知识,而这些都是海军中那些陈旧的、有的甚至用了上百年的图表所没有的。
他清点了库房里的气压计、指南针、六分仪和天文钟。他发现,库房里存放着许多航海书籍、地图和图表……刚开始的时候,他觉得这些都是垃圾,但当他拍掉被海水浸泡过的书籍上的灰尘,凝视着里面的内容时,莫里突然变得非常激动。
于是莫里带领20个人,或者可以看成是那时候的计算机,对这些数据进行了分析整理,正当时非常繁杂的工作。
为了提高精确度,莫里需要更多的数据。因此他创建了一个标准的表格来记录航海数据,并且要求美国所有的海军舰艇在海上使用,返船后再提交表格。上传也拼命地想得到他的表格。
他所创建的图表帮助商人节省了一大笔钱。因为航海路程减少了三分之一左右。
这是可以说是大数据的最早实践之一,也开启了大数据在经济领域的运行之路。
“取之不尽,用之不竭”的数据创新
就像文中所说:
数据像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。
数据本身能够被进一步创新可能是它最大的价值。亚马逊就是能够进一步扩展数据使用价值的好公司:
亚马逊早期与AOL达成了一项协议,为AOL电子商务网站提供后台技术服务。在大多数人眼里,这只是一个普通的外包协议,而亚马逊真正的用意在于掌握用户的数:他们在看什么、买什么。“这些数据可以帮助亚马逊提高它的推荐引擎性能。”亚马逊前首席科学家伟思岸(Andreas Weigend)一语道破。可怜的AOL从来没有意识到这一点,只看到了销售这个基本用途所带来的利益;而聪明的亚马逊却知道如何从二次利用中获利。
这一章作者笔墨颇深,毕竟商业用途是众人异常关心的话题。再来看看“谷歌街景与GPS采集”的例子。自始至终,谷歌街景都是其备受争议的话题。谷歌街景除了拍摄房屋和道路,而且通过采集GPS数据探索地理信息,并且在无线网络名称上也有所涉及。这些都为谷歌收集了大量的数据。
这些数据之所以具有可扩展性,是因为谷歌不仅将其用于基本用途,而且进行了大量的二次使用。例如,GPS数据不仅优化了其地址服务,而且对谷歌自动驾驶汽车的动作功不可没。
再来看一个关于Facebook的故事。那件事发生在2012年5月18日(像不像中国人给定的日子)。
这一天,28岁的Facebook创始人马克·扎克伯格(Mark Zucherberg)在位于美国加利福尼亚州门罗帕克市的公司总部,象征性的敲响了纳斯达克的开盘钟。这家宣称全球约每十个人中就有一个是其用户的全球最大社交网站公司,开启了其最为上市公司的征程。
上市当天一开始的股价当然是大涨11%甚至一度有可能翻盘,但不久就开始下跌,而且情况急转直下。在一些承销商的带领下才在收盘时勉强略高于发行价。
上市前一天,银行对Facebook的定价是每股38美元,总估值1040亿美元(也就是说,大约是波音公司、通用汽车和戴尔电脑的市值之和)”。那么事实上Facebook价值多少呢?在2011供投资者评估公司的审核账目中,Facebook公布的资产为66亿美元,包括计算机硬件、专利和其他实际价值。那么Facebook公司数据库中存储的大量信息,其账面价值是多少呢?零。它根本没有被记入其中,尽管除了信息,Facebook几乎一文不值。
有人曾估算过,Facebook在2009年至2011年间收集了2.1万亿条“获利信息”,包括用户“喜好”、评论等,整合起来,每个Facebook用户的价值约为100美元。那么,究竟为什么Facebook根据会议准则计算出的价值(大约63亿美元)和最初的市场估值(1040亿美元)之间存在如此巨大的差异呢?目前还尚不清楚,但是这位日后的上市账务也做出了提醒。
然而人们普遍开始认为,通过查看公司“账面价值”(大部分是有形资产的价值)来确定企业价值的方法,开始不能充分反映公司的真正价值。
数据、技术与思维的三足鼎立
Farecast和ITA Software都是以数据信息著称的公司,这两家公司分别被微软和谷歌以1.1亿美元、7亿美元收购。在作者看来,目前是大数据时代的早期。
思维和技术是最有价值的,但是最终大部分的价值还是必须从数据本身中挖掘。
作者提出,大数据的价值链有3各构成,这是由大数据所提供价值的不同来源所决定的,这三种来源分别是:
数据
技能
思维
对应的三种大数据公司就是:
基于数据本身的公司
基于技能的公司
及与思维的公司
这三种类型的公司构成了三足鼎立的关系。
当然,还有一些公司更有实力,或者说更幸运,它们涉足了三个领域。这些公司里就包括谷歌。
它收集搜索时拼写错误的数据,它也有利用这些数据创建一个世界上最好的拼写检查程序的好点子,同时它自己也具备挖掘数据价值的技术。
另一个典型的例子是亚马逊。这家公司的商业模式甚至就是按照数据、技能、思维的顺序来发展的。它早期备受赞誉的书籍推荐系统,以及1997年的股票市场首次提出的“协同过滤”,乃至后来实现想法的方法及配备的足够的数据协议,就是这三者的表现。
4 大数据时代的管理变革
大数据带来便利的同时,也需要一个健康、合理、有序的管理环境。
让数据主宰一切的忧患
如今的时代暴露在无数的“第三只眼”下。
亚马逊监视着我们的购物习惯,谷歌监视着我们的网页搜索习惯,而微博似乎什么都知道,不仅监听到了我们心中的“TA”,还有我们的社交关系网。
作者还列举了历史上信息监控的恐怖。
1989年,柏林墙倒塌,之前的近40年间,民主德国国家安全局“Stasi”雇佣了十万左右的全职间谍,时刻在街上开车监视着成千上万民众的一举一动。他们拆看信件、偷窥银行账户信息、在民众家中安装窃听器并且窃听电话他们还会让情人、夫妇、父母和孩子相互监视,导致人与人之间丧失了最基本的信任。结果,详细记录普通人最私密生活信息的文件至少包括了3900万张索引卡片和铺开足有113公里长的文档。
这里作者笔锋一转:
如果说在互联网时代我们的隐私受到了威胁,那么大数据时代是否会加深这种威胁呢?这就是大数据的不利影响吗?答案是肯定的。
还有一个大数据的误导,就是在预测与惩罚的过程中,使用“将做”,而不是“所做”。当警察制止凶案的发生的时候,大数据或许可以帮助他们预测凶案发生的可能,以一定的概率预知案件发生的可能,但是,那个罪犯能被逮捕吗?如果接近于像电影《少数派报告》(一部关于预测未来的科幻电影)那样,活在概率中的生活也是会令人惶恐不安的。
责任与自由并举的信息管理
大数据推动社会的发展,社会开始向一个未知领域变迁。处于大数据时代的我们,可能需要加快时代适应的步伐,这也是责任与自由并举的源头所在。
这里,作者提出了他自己的见解。
在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于数据使用者为其行为承担责任,而不是将重心放在收集数据之初取得个人同意上。
再比如,在谈到关于“个人动因”与“预测分析”的关系上,作者也有独到的观点。
在大数据时代,关于公正的概念需要重新定义已维护个人动因的想法:人们选择自我行为的自由意志。简单地说,就是个人可以并应该为他们的行为而非意向负责。
5 正在发生的未来
最后,作者提出了自己的看法,也是其未来的愿景。改变生活方式的大数据应用显示了其强有的力量,但它却不是一个冰冷的世界,人类自身也依然无法被替代和超越。
大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而最好的方法和答案还在不就的未来。
最后
以上就是靓丽羽毛为你收集整理的大数据时代的变革与顺势而为——读《大数据时代》的全部内容,希望文章能够帮你解决大数据时代的变革与顺势而为——读《大数据时代》所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复