我是靠谱客的博主 可爱盼望,最近开发中收集的这篇文章主要介绍大数据之大数据基本概念,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

上一讲我们说到,我们正在进入一个以数据的深度挖掘和融合应用为特征的智慧化阶段——信息化3.0时代,即大数据时代。

身处大数据时代,我们一定很关心到底什么是大数据呢?这期,让我们来看看大数据的概念。

首先,我们来看看国家标准《GB/T 35295 -2017 信息技术 大数据 术语》中对大数据的一个定义:大数据是指具有体量巨大、来源多样、生成极快、且多变等特征并且难以用传统数据体系结构有效处理的包含大量数据集的数据。

我们看这个定义的“体量巨大、来源多样、生成极快、且多变”,很明显的给出了大数据的几个特征,也就是我们常说的4V特性:volume(体量)、velocity(速度)、variety(多样性)、variability(多变性)。

volume(体量),是指构成大数据的数据集的规模。随着传感设备,移动设备,网络宽带的的成倍增加,在线交易和社交网络,每天生产成千上万兆字节的数据,数据规模也在不断的急剧增长。全球数据量正以前所未有的速度增长,数据的存储容量从TB级扩大到BB数量级(下图贴一张数据存储容量的单位换算,体会一下)。数据量大只是一个数量级的问题,并没有具体的容量标准。

                                                             

 

                                                                               数据存储容量单位换算

variety(多样性),数据种类繁杂。大数据涉及多种数据类型,包括结构化数据和非结构化数据。不仅有传统的关系型数据库,还有来自网页内容、网页日志文件、点击流、搜索索引、社交媒体、电子邮件、文件、主被动系统感应数据等各种各样原始的、结构化的、半结构化的和非结构化的数据,其中非结构化数据的规模占总数据量的80%~90%;

velocity(速度),单位时间的数据流量。数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少。

variability(多变性),大数据其他特征,即体量、速度和多样性等特征都处于多变状态,体现出大数据的复杂多变。

另外定义中提到的“难以用传统数据体系结构有效处理的包含大量数据集的数据”,面对如此海量的数据,随着软件环境和硬件环境的不断改善,数据处理应用领域需求的持续扩大,那些常规的软件工具,比如传统数据库是无法进行处理的,这就必然会加速技术的不断革新,数据库技术与其它软件技术的加速融合,新的、更高一级的分布式数据库系统应运而生,大数据技术开始走进信息技术的舞台。

更多技术知识,请关注以下公众号。

最后

以上就是可爱盼望为你收集整理的大数据之大数据基本概念的全部内容,希望文章能够帮你解决大数据之大数据基本概念所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(55)

评论列表共有 0 条评论

立即
投稿
返回
顶部