我是靠谱客的博主 欣慰万宝路,最近开发中收集的这篇文章主要介绍Spark 概述 | Spark 与 Hadoop的区别一、Spark是什么二、Spark的核心模块二、Spark VS Hadoop,觉得挺不错的,现在分享给大家,希望可以做个参考。
概述
文章目录
- 一、Spark是什么
- 二、Spark的核心模块
- 二、Spark VS Hadoop
一、Spark是什么
Spark是一个基于内存的快速、通用、可扩展的大数据分析计算引擎
二、Spark的核心模块
如下图所示,Spark共有以下几个模块:
Spark Core
:提供了Spark
最基础与最核心的功能,Spark
其他的功能如:Spark SQL
,Spark Streaming
,GraphX
,MLlib
都是在Spark Core
的基础上进行扩展的Spark SQL
:是用来操作结构化数据的组件。通过Spark SQL
,用户可以使用SQL
或者Apache Hive
版本的SQL
方言(HQL
)来查询数据Spark Streaming
:是针对实时数据进行流失计算的组件,提供了丰富的处理数据流的API
Spark MLlib
:一个机器学习算法库,它不仅提供了模型评估、数据导入等额外功能,还提供了一些更底层的机器学习原语Spark GraphX
:面向图计算提供的框架与算法库
Spark比Hadoop出现的时间较晚,它的主要功能是数据计算,所以Spark一直被认为是Hadoop框架的升级版
二、Spark VS Hadoop
Spark是基于内存计算的,Hadoop的计算框架MapReduce是基于磁盘计算的
MapReduce
每次计算都会把中间结果
放入磁盘当中,进行迭代计算的时候,会再次把中间结果
读到内存当中再进行计算,这就导致了MapReduce
计算的速度很慢,因为每次都要读磁盘,如下图所示:
而Spark
则是根据内存
进行计算的,他把中间结果存到了内存
中,这使得速度加快了不少:
众所周知,内存的速度要比磁盘快很多,官网也给出了,两个计算引擎的速度对比:
由于现在内存
价格昂贵,Spark
还并不能完全替代MapReduce
最后
以上就是欣慰万宝路为你收集整理的Spark 概述 | Spark 与 Hadoop的区别一、Spark是什么二、Spark的核心模块二、Spark VS Hadoop的全部内容,希望文章能够帮你解决Spark 概述 | Spark 与 Hadoop的区别一、Spark是什么二、Spark的核心模块二、Spark VS Hadoop所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复