【前言 大数据白皮书(2014)的概括和总结。
【正文】
大数据为什么到来?
2000 年前后,互联网(特别是网页)爆发式发展,每天新增约700 万个
网页,用户检索信息越来越不方便。谷歌等公司率先建立了覆盖数十亿网页的索引库,开始提供
较为精确的搜索服务,大大提升了人们使用互联网的效率,这是大数据应用的起点。
当时搜索引擎要存储和处理的数据,不仅数量之大所未有,而且以非结构化数据为主,传统技术无法应对。为此陆续推出的分布式文件系统(GFS,Google File System)、分布式并行计算(MapReduce)
和分布式数据库(BigTable)等技术,被认为是是大数据技术的源头。
大数据有什么特点?
大数据是具有体量大、结构多样、时效强等特征的数据;处理大数据需采用新型计算架构和智能算法等新技术;
大数据的应用强调以新的理念应用于辅助决策、发现新的知识,更强调在线闭环的业务流程优化。
早期对大数据的不妥认知:
个人认为,大数据就像就好比一座充满复杂元素的矿石山,包涵了纷繁复杂的物质,放在一起,你也不知道哪部分是金铜铁铝锌,而我们要去分析,提取,整合它们。这里我们分三部分来比喻,首先存储这些数据不能用传统存储单一物质的的方法,可能导致混乱等问题;大数据的存储方式亦然,传统的存储方式不适应现在的非结构化,快速增长的数据结构。再拿矿石来说,想要提炼出单质,必然要经过物理变化如过滤,洗涤,还要有化学变化,化学反应。对于分析大数据。而大数据也要分析,计算。我又深入理解一下两篇白皮书,觉得这个比喻不妥!
读完白皮书对大数据技术的理解:
1,大数据的采集与预处理:来源:管理信息系统,科学实验系统,物理信息系统,WEB信息系统。预处理:对不同的异构集,做整合处理,将数据收集,清洗,转换,然后存储。
2,大数据存储与管理: 存储:分布式文件系统(GFS和HDFS即(HadoopDistributed File System))替代传统文件系统。GFS/HDFS 将计算和存储节点在物理上结合在一起,从而避免在数据密集计算中易形成的I/O 吞吐量的制约。管理:分布式数据库,如谷歌BigTable 和HadoopHBase 等非关系型数据库(NoSQL,Not only SQL);混合型数据库,取得关系数据库和非关系数据库的两者优势。
3,大数据计算模式系统:大数据并行计算技术(MapReduce)。一个MapReduce 系统由廉价的通用服务器构
成,通过添加服务器节点可线性扩展系统的总处理能力(Scale Out),在成本和可扩展性上都有巨大的优势;计算
模式:批计算,流计算,迭代计算,图计算等模式。
本数据进行训练,让机器代替人工获得从数据中提取知识的能力。
最后的菜鸟的猜想:通过分布式的并行计算,逐渐使处理大数据成为可能,那么我们能不能基于这种计算能力来暴力破密呢?
最后
以上就是温暖店员最近收集整理的关于读大数据白皮书,大数据与产业发展白皮书感悟的全部内容,更多相关读大数据白皮书内容请搜索靠谱客的其他文章。
发表评论 取消回复