我是靠谱客的博主 孤独咖啡,最近开发中收集的这篇文章主要介绍spark比mapreduce快的一个原因,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

接触spark时间不长,但是有些概念还是没有太校准,于是回顾了一下spark的文档。读到shuffle操作那块发现spark的shuffle操作后的reduce也是存储到文件然后从文件中读取。以前一直以为spark快是因为这部分操作是在内存中执行,也就是reduce操作从内存中读取shufflemaptask的结果。看来以后学知识还是要扎实一点,慢一点没有关系。

上面指出了,spark也是从文件中读取shuffle结果,那快速的原因在哪里呢?

  1. rdd缓存,rdd计算是可以设置缓存的
  2. map缓存,map的结果也是会被缓存的,以便以后利用。 (以上这两点是官网找到的)
  3. 对shuffle操作的优化,生成的中间文件减少了,那么磁盘io就会减少。
  4. 由于mapreduce会对数据进行排序,所以reduce操作必须等到文件全部生成并进行排序之后才可以进行。spark不是这种自动排序,因此可以生成一点,刷新ShuffleMapTask缓冲区到文件中,然后直接进行reduce

最后

以上就是孤独咖啡为你收集整理的spark比mapreduce快的一个原因的全部内容,希望文章能够帮你解决spark比mapreduce快的一个原因所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(86)

评论列表共有 0 条评论

立即
投稿
返回
顶部