Spark学习脑图

87 阅读 0 评论 58 点赞

我是靠谱客的博主执着西牛，这篇文章主要介绍Spark学习脑图，现在分享给大家，希望可以做个参考。

为什么80%的码农都做不了架构师？>>>

百度脑图链接：http://naotu.baidu.com/file/8422ab7285ff03bb649894072153e133?token=da10b5dd055f1e3a

spark对比hadoop的优势

	hadoop	spark
速度	中间结果存放在hdfs上	中间数据存在内存里，内存放不下会存在本地，不会存在hdfs上
	reduceTask需要等mapTask全部结束后才执行	相同分区的转换构成流水线，放在同一个task中运行。分区不同的转换中间需要shuffle，放在不同的stage中，需要等前面的stage完成
	时延高，只适合batch操作。对于交互式数据操作和实时处理支持不足。	时延低，可以处理micro batch操作
	对迭代式数据处理性能比较差	在内存中缓存数据，提高迭代式计算的性能
编程模型	抽象层次低，需要手工编写代码来完成计算，使用上难易上手	基于RDD的抽象，使数据逻辑处理的代码非常简短。
	只提供两个操作：Map和Reduce，欠缺表达力。	提供很多转换和动作，很多基本操作，如join、groupBy等。
	一个job只有map和reduce两个阶段，复杂的计算需要大量job来完成，job之间的依赖关系是由开发者自己管理的。	一个job可以包含多个RDD转换操作，在调度时可以生成多个stage。如果多个map操作的RDD分区不变，可以放在同一个task中运行。
	处理逻辑隐藏在代码细节中，没有整体逻辑。	在Scala中，通过匿名函数和高阶函数，RDD的转换操作支持流式API，可以提供处理逻辑的整体视图，代码不包含具体的操作实现细节，逻辑更清晰。