我是靠谱客的博主 能干发带,最近开发中收集的这篇文章主要介绍Spark为啥比hadoop速度快?,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1.统一的RDD抽象和操作,基于该抽象一个栈就可以轻松的处理实时流计算,SQL交互式查询,机器学习和图计算等。
基于统一的技术堆栈,使得Spark称为大数据通用计算平台。
这里写图片描述

2.基于内存的迭代式计算
回顾下hadoop中经典处理过程:
这里写图片描述
MapReduce在每次执行时都要从磁盘读取数据,计算完毕后都要把数据存放到磁盘上。
比如:机器学习的时候,会不断的迭代数据 ,这样的话,会消耗大量的IO
这里写图片描述
而Spark是基于内存的。
这里写图片描述
3.DAG
它可以把整个执行过程做一个图,然后进行优化。

最后

以上就是能干发带为你收集整理的Spark为啥比hadoop速度快?的全部内容,希望文章能够帮你解决Spark为啥比hadoop速度快?所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(51)

评论列表共有 0 条评论

立即
投稿
返回
顶部