我是靠谱客的博主 欣慰万宝路,最近开发中收集的这篇文章主要介绍Spark 概述 | Spark 与 Hadoop的区别一、Spark是什么二、Spark的核心模块二、Spark VS Hadoop,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

文章目录

  • 一、Spark是什么
  • 二、Spark的核心模块
  • 二、Spark VS Hadoop


一、Spark是什么

在这里插入图片描述
Spark是一个基于内存的快速、通用、可扩展的大数据分析计算引擎

二、Spark的核心模块

如下图所示,Spark共有以下几个模块:
在这里插入图片描述

  • Spark Core:提供了Spark最基础与最核心的功能,Spark其他的功能如:Spark SQLSpark StreamingGraphXMLlib都是在Spark Core的基础上进行扩展的
  • Spark SQL:是用来操作结构化数据的组件。通过Spark SQL,用户可以使用SQL或者Apache Hive版本的SQL方言(HQL)来查询数据
  • Spark Streaming:是针对实时数据进行流失计算的组件,提供了丰富的处理数据流的API
  • Spark MLlib:一个机器学习算法库,它不仅提供了模型评估、数据导入等额外功能,还提供了一些更底层的机器学习原语
  • Spark GraphX:面向图计算提供的框架与算法库

Spark比Hadoop出现的时间较晚,它的主要功能是数据计算,所以Spark一直被认为是Hadoop框架的升级版

二、Spark VS Hadoop

Spark是基于内存计算的,Hadoop的计算框架MapReduce是基于磁盘计算的

MapReduce每次计算都会把中间结果放入磁盘当中,进行迭代计算的时候,会再次把中间结果读到内存当中再进行计算,这就导致了MapReduce计算的速度很慢,因为每次都要读磁盘,如下图所示:

在这里插入图片描述
Spark则是根据内存进行计算的,他把中间结果存到了内存中,这使得速度加快了不少:
在这里插入图片描述
众所周知,内存的速度要比磁盘快很多,官网也给出了,两个计算引擎的速度对比:
在这里插入图片描述

由于现在内存价格昂贵,Spark还并不能完全替代MapReduce

最后

以上就是欣慰万宝路为你收集整理的Spark 概述 | Spark 与 Hadoop的区别一、Spark是什么二、Spark的核心模块二、Spark VS Hadoop的全部内容,希望文章能够帮你解决Spark 概述 | Spark 与 Hadoop的区别一、Spark是什么二、Spark的核心模块二、Spark VS Hadoop所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(53)

评论列表共有 0 条评论

立即
投稿
返回
顶部