无限小刺猬

文章
5
资源
0
加入时间
3年0月9天

总结Spark比Hadoop快的原因

1. 消除了冗余的HDFS读写Hadoop的每次shuffle都必须写到磁盘中,而Spark的shuffle不一定写到磁盘中,而是可以缓存到内存中,以便后续的其他迭代操作时直接使用。这样一来,如果任务复杂,需要很多次的shuffle才能完成,那么Hadoop读写磁盘文件时花费在IO上的时间就会大大增加。2. 消除了冗余的MapReduce阶段Hadoop的每次shuffle必将连接着一...