烂漫大米

文章
2
资源
0
加入时间
3年0月21天

为什么Spark比MapReduce快的原因

对于这个问题我先给出核心的答案,后面会进一步的扩展,有兴趣的可以去了解一下扩展内容。核心答案1、基于内存学过Spark的应该都知道,Spark是基于内存进行数据处理操作的,而MapReduce则是基于磁盘进行数据处理。MR的设计:将MapTask的输出作为中间结果,保存到文件当中,随后作为ReduceTask的输入。这样可以提高可靠性,减少了内存的占用,但是牺牲了性能。Spark的设计:数据在内存当中进行交换(注意是交换,也就是转换算子的操作),但是内存可靠性不如磁盘,所以性能方面比MR