大数据基础之Spark——Spark基础(Spark优势、Spark技术栈、Spark架构、Spark入口以及RDD相关操作)
Spark的安装教程在我之前的博客里写过,有需要的可以去看看。Spark简介:Spark是一种用来实现分布式计算的框架。使用Spark的原因:相比于MapReduce:处理过程繁杂 - 只有Map和Reduce两个操作,复杂的逻辑需要大量的样板代码处理效率低 - Map中间结果写磁盘,Reduce结果写HDFS,多个Map通过HDFS交换数据 - 任务调度与启动开销大不适合迭代处理、交互式处理和流式处理Spark是类Hadoop MapReduce的通用并行框架Job中间