为什么Spark比MapReduce快？

277 阅读 0 评论 183 点赞

我是靠谱客的博主斯文手套，这篇文章主要介绍为什么Spark比MapReduce快？，现在分享给大家，希望可以做个参考。

通常大家只是说Spark是基于内存计算的，速度比MapReduce要快。或者说内存中迭代计算。其实我们要抓住问题的本质。总结有以下几点：

1、Spark vs MapReduce ≠ 内存 vs 磁盘

其实Spark和MapReduce的计算都发生在内存中，区别在于：

MapReduce通常需要将计算的中间结果写入磁盘，然后还要读取磁盘，从而导致了频繁的磁盘IO。
Spark则不需要将计算的中间结果写入磁盘，这得益于Spark的RDD（弹性分布式数据集，很强大）和DAG（有向无环图），其中DAG记录了job的stage以及在job执行过程中父RDD和子RDD之间的依赖关系。中间结果能够以RDD的形式存放在内存中，且能够从DAG中恢复，大大减少了磁盘IO。

2、Spark vs MapReduce Shuffle的不同

Spark和MapReduce在计算过程中通常都不可避免的会进行Shuffle，两者至少有一点不同：

MapReduce在Shuffle时需要花费大量时间进行排序，排序在MapReduce的Shuffle中似乎是不可避免的；
Spark在Shuffle时则只有部分场景才需要排序，支持基于Hash的分布式聚合，更加省时；

3、多进程模型 vs 多线程模型的区别

MapReduce采用了多进程模型，而Spark采用了多线程模型。多进程模型的好处是便于细粒度控制每个任务占用的资源，但每次任务的启动都会消耗一定的启动时间。就是说MapReduce的Map Task和Reduce Task是进程级别的，而Spark Task则是基于线程模型的，就是说mapreduce 中的 map 和 reduce 都是 jvm 进程，每次启动都需要重新申请资源，消耗了不必要的时间（假设容器启动时间大概1s，如果有1200个block，那么单独启动map进程事件就需要20分钟）
Spark则是通过复用线程池中的线程来减少启动、关闭task所需要的开销。（多线程模型也有缺点，由于同节点上所有任务运行在一个进程中，因此，会出现严重的资源争用，难以细粒度控制每个任务占用资源）

总结：关于Spark为什么比MapReduce快，或者Spark速度快于MapReduce的原因，总结至少有这几点不同之处吧。

最后

以上就是斯文手套最近收集整理的关于为什么Spark比MapReduce快？的全部内容，更多相关为什么Spark比MapReduce快内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(183)

本文分类：spark
浏览次数：277 次浏览
发布日期：2023-10-15 22:45:35

相关文章

数据库精选70题：Leetcode 1204. 最后一个能进入电梯的人（自定义变量）题目描述

数据库精选70题：Leetcode 1204. 最后一个能进入电梯的人（自定义变量）题目描述

spark的四种模式，spark比MapReduce快的原因

spark的四种模式，spark比MapReduce快的原因

Spark 为什么比Hadoop快

Spark 为什么比Hadoop快

力扣每日一题-第29天-1491.去掉最低工资和最高工资后的平均工资

力扣每日一题-第29天-1491.去掉最低工资和最高工资后的平均工资

为什么Spark比MapReduce快？

为什么Spark比MapReduce快？

Spark 为什么快

leetcode题目70爬楼梯

leetcode题目70爬楼梯

LeetCode 精选数据库 70 题

LeetCode 精选数据库 70 题

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部