概述
目录
1.什么是大数据?
2.大数据的特征4V
3.大数据的数据结构
结构化数据
非结构化数据
半结构化数据
4.大数据情景下科学计算模式发生了那些变革?
5.什么是大数据分析5V?
6.大数据分析的应用场景?
7.大数据分析的流程
1.数据采集技术
2.数据预处理技术
3.数据存储与管理技术
4.数据分析处理技术
5. 数据挖掘技术
6.数据可视化
1.什么是大数据?
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和数据处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2.大数据的特征4V
- 数量(volume)
- 多样性(variety)
- 速度(velocity)
- 价值(value)
3.大数据的数据结构
-
结构化数据
结构化数据具有较强的结构模式,数据本质上是“先有结构,后有数据“,可以使用关系数据库描述与存储。例如用户信息表,首先基于关系库建立一个包含用户名、性别、出生日期、住址4个属性表的表,表中插入的每位用户的数据都具备这4个属性值。
-
非结构化数据
非结构化数据的数据结构不规则,没有预定义的数据模型,并不能用数据库的二维逻辑很好的进行描述 。例如,存储在文本文件中的系统日志、图像、音频、视频等数据都属于非结构化数据。
-
半结构化数据
介于结构与非结构之间,存在半结构化数据。它是一种弱化的结构化数据形式,具有一定的结构性,但并不符合结构化数据的严格模式,仍有明确的数据大纲,包含相关的标记,用来分割实体及实体的属性,如XML、JSON等标记表现形式的数据。
4.大数据情景下科学计算模式发生了那些变革?
- 商业的变革
- 社会管理变革
- 思维的变革
5.什么是大数据分析5V?
- 数量(volume)
- 多样性(variety)
- 速度(velocity)
- 价值(value)
- 真实性(Veracity)
6.大数据分析的应用场景?
- 城市治理
- 电子商务
- 医疗影像处理
- 制造领域
- 自然语言处理
7.大数据分析的流程
1.数据采集技术
2.数据预处理技术
- 数据清洗
- 数据集成
- 数据归约
- 数据变换
3.数据存储与管理技术
- 分布式文件系统(HDFS):(Hadoop Distributed File System)HDFS是开源工具Hadoop的核心模块之一,可以用来部署在低廉的服务器硬件上基于分布式理论构建,具有高容错性,可扩展性等特点,封装性很好。
- 分布式列存数据库HBase:HBase是构建在HDFS上的分布式列存储系统,用于海量结构化、半结构化数据存储。HBase具有高可靠、高性能、水平扩展、可伸缩、面向列的特点。
- 内存数据库Redis:内存数据库抛弃了磁盘数数据管理的传统方式,主要指将数据尽量放在内存中直接操作的数据库。
- 消息分发和存储Kafka:Kafka是由Apache软件基金会开发的一个开源流处理平台,是一种高吞吐量的分布式发布订阅消息系统,是可划分的、多订阅者、冗余备份、持久性的日志服务,主要用于处理流式数据,具有高吞吐量、分布式和易扩展的特点,支持在线、离线业务。
4.数据分析处理技术
- 离线数据处理:典型计算框架有MapReduce(分而治之,整个计算过程分成Map和Reduce两个阶段)、Hive(Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取,转化,加载,是一种可以存储、查询和分析存储在Hadoop的大规模数据机制)、Spark(Spark提供了一系列不同应用需求的组件,主要有Spark SQL、Spark Streaming、MLlib、GraphX。)等。
- 实时数据处理:实时处理的典型计算框架有Spark Streaming、Storm等
5. 数据挖掘技术
6.数据可视化
- 统计图表
- 2D、3D区域
- 时态
- 多维
- 分层
- 网络
最后
以上就是开朗水蜜桃为你收集整理的大数据分析与应用(中级) 大数据分析概述1.什么是大数据?4.大数据情景下科学计算模式发生了那些变革? 5.什么是大数据分析5V? 6.大数据分析的应用场景?7.大数据分析的流程 的全部内容,希望文章能够帮你解决大数据分析与应用(中级) 大数据分析概述1.什么是大数据?4.大数据情景下科学计算模式发生了那些变革? 5.什么是大数据分析5V? 6.大数据分析的应用场景?7.大数据分析的流程 所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复