Spark 概述 | Spark 与 Hadoop的区别一、Spark是什么二、Spark的核心模块二、Spark VS Hadoop

101 阅读 0 评论 67 点赞

我是靠谱客的博主欣慰万宝路，最近开发中收集的这篇文章主要介绍Spark 概述 | Spark 与 Hadoop的区别一、Spark是什么二、Spark的核心模块二、Spark VS Hadoop，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

文章目录

一、Spark是什么
二、Spark的核心模块
二、Spark VS Hadoop

一、Spark是什么

在这里插入图片描述
Spark是一个基于内存的快速、通用、可扩展的大数据分析计算引擎

二、Spark的核心模块

如下图所示，Spark共有以下几个模块：
在这里插入图片描述

Spark Core：提供了Spark最基础与最核心的功能，Spark其他的功能如：Spark SQL，Spark Streaming，GraphX，MLlib都是在Spark Core的基础上进行扩展的
Spark SQL：是用来操作结构化数据的组件。通过Spark SQL，用户可以使用SQL或者Apache Hive版本的SQL方言（HQL）来查询数据
Spark Streaming：是针对实时数据进行流失计算的组件，提供了丰富的处理数据流的API
Spark MLlib：一个机器学习算法库，它不仅提供了模型评估、数据导入等额外功能，还提供了一些更底层的机器学习原语
Spark GraphX：面向图计算提供的框架与算法库

Spark比Hadoop出现的时间较晚，它的主要功能是数据计算，所以Spark一直被认为是Hadoop框架的升级版

二、Spark VS Hadoop

Spark是基于内存计算的，Hadoop的计算框架MapReduce是基于磁盘计算的

MapReduce每次计算都会把中间结果放入磁盘当中，进行迭代计算的时候，会再次把中间结果读到内存当中再进行计算，这就导致了MapReduce计算的速度很慢，因为每次都要读磁盘，如下图所示：

在这里插入图片描述
而Spark则是根据内存进行计算的，他把中间结果存到了内存中，这使得速度加快了不少：

众所周知，内存的速度要比磁盘快很多，官网也给出了，两个计算引擎的速度对比：

由于现在内存价格昂贵，Spark还并不能完全替代MapReduce

最后

以上就是欣慰万宝路为你收集整理的Spark 概述 | Spark 与 Hadoop的区别一、Spark是什么二、Spark的核心模块二、Spark VS Hadoop的全部内容，希望文章能够帮你解决Spark 概述 | Spark 与 Hadoop的区别一、Spark是什么二、Spark的核心模块二、Spark VS Hadoop所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错，欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(67)

本文分类：大数据学习笔记
浏览次数：101 次浏览
发布日期：2023-07-05 10:35:02
本文链接：https://www.kaopuke.com/article/k-p-k_14_uzo_26_f5_14_jky.html

相关文章

Spark 系列（一）—— Spark简介

Spark 系列（一）—— Spark简介

Spark和Hadoop的区别

Spark和Hadoop的区别

Spark简介Spark是什么Spark的四大特性Spark运行原理Spark Core核心组件

Spark简介Spark是什么Spark的四大特性Spark运行原理Spark Core核心组件

Spark和Hadoop的区别和比较

Spark和Hadoop的区别和比较

Spark 概述 | Spark 与 Hadoop的区别一、Spark是什么二、Spark的核心模块二、Spark VS Hadoop

Spark 概述 | Spark 与 Hadoop的区别一、Spark是什么二、Spark的核心模块二、Spark VS Hadoop

配置xsync集群分发脚本出现的小问题

配置xsync集群分发脚本出现的小问题

spark与hadoop对比

Spark 概述

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部