spark-core相关知识点

83 阅读 0 评论 55 点赞

我是靠谱客的博主谦让大米，最近开发中收集的这篇文章主要介绍spark-core相关知识点，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

摘要

四个部分, 难度递增

Spark基础
RDD基础
job的生成和提交
常用算子, 重点在于Action和Transformation算子的区分, 以及是否触发shuffle

概述

Spark特点

速度快. 以Hadoop的MapReduce为基准, Spark比MR快100倍
易用. 提供了Java, Scala, Python的API, Python和Shell的交互式界面, 80多种算子
通用. 批处理, 交互式查询, 实时流处理, 机器学习和图计算
兼容性. 可以在Hadoop上运行Spark, Spark也有自己的集群

Spark核心组件

SparkCore: 数据抽象RDD, 提供了StandAlone模式
SparkStream: 实时流处理
SparkMLlib: 机器学习库
SparkGraphX: 图计算

Spark和MR

MR只有简单的map和reduce逻辑, Spark有80多种算子, 而且Spark支持流式处理, 机器学习和图计算. 功能更为强大
MR处理复杂数据需要设计多个MR, 依次进行; Spark借助多job在内存中依次进行
MR计算结果会持久化到磁盘, Spark在内存中保留缓存. Spark速度更快
Spark借助RDD实现了高容错性, MR遇到错误只能重新计算
MR逻辑简单, 稳定性强, 适合后台长期运行; Spark需要调优

Spark启动

start-all, 先启动Master, Master找到slaves配置文件, 依次启动Worker
Worker到Master进行注册
Master将Worker信息保存到磁盘和内存, 返回注册成功的信息
Worker开始给Master发送心跳包, Master持续更新心跳信息

启动细节

Spark和Hadoop的sbin包中都有start-all.sh和stop-all.sh, 在添加到环境变量时需要注意
Spark分布式默认需要1G以上的内存, 所以搭建环境时, 对应的yarn节点内存必须2G及以上

RDD

概述: 处理大数据的核心思路就是分割.
spark不仅切分了数据, 而且将数据处理的流程也进行了切分
全部分区数据的每部分计算以及计算结果, 就是一个RDD

特性

数据抽象. 不实际存储数据
分布式. 数据存储位置, 以及计算过程都在分布式系统中
不可变. RDD一旦生成, 数据和依赖关系就不可更改
容错. 借助依赖关系, RDD出错时只需要重新计算出错的那部分数据
弹性. 存储位置可内存可硬盘, 高容错等

弹性体现

自动进行内存和磁盘数据存储的切换
基于血统的高效容错机制
Task如果失败, 会自动进行特定次数的重试
Stage如果失败会自动进行特定次数的重试
Checkpoint可以主动或被动触发
数据调度弹性

属性

分区信息(计算哪部分数据)
该分区的计算规则(怎么计算)
对其它RDD的依赖(此次计算在整个流程中处于什么位置)
[可选]分区器, 默认是HashPartitioner, 也可以自定义
[可选]优先位置列表. 决定task在哪个节点上运行

`Job`生成和提交逻辑

Action算子触发Job的生成; 根据RDD的依赖关系构建DAG(有向无环图)
以宽依赖作为分割依据, DAG被进一步细分为多个Stage. 每个Stage根据分区数生成对应数量的Task
TaskScheduler(调度器)根据先到先得(FIFO), 或公平调度原则, 根据资源情况将Task调度到Executor
Worker开启Executor进程, Executor进程将Task分配给线程池

`Job`提交

客户端作为Driver, 先启动SparkSubmit进程, 开始和Master通信, 此时也生成了SparkContext对象,
Master收到请求, 寻找空闲的Worker, 并分配相应资源
Worker领取任务, 并启动Executor. Exextor启动后反向注册到Dirver
Driver向Execxtor提交具体的计算规则, Execxtor进行计算
Executor将计算结果返回Worker

常用算子

算子分为Transformation算子和Action算子
一般而言, 方法返回值为RDD的属于Transformation算子

Action算子会触发Job的生成, Action算子对应的RDD也会被封装为finalStage.
除了Action算子之外, 触发shuffle的Transformation算子也会产生Stage划分

`Action`算子

名称	功能
`reduce`	聚合为单元素
`aggregate`	可以转换数据类型, 类似于`combineByKey`
`count`	计数
`first`	取首位元素
`take`	取指定位元素
`collect`	聚合为集合
`foreach`	遍历
`foreachPartition`	以分区为单位遍历
`saveAsTextFile`	存储为text文件

`Transformation`算子

Transformation算子大致上可以分为两类,

map相关, 是对数据的重新映射, 底层调用了new MapPartitionsRDD. 不触发shuffle
reduce相关, 是对数据的聚合, 底层调用了combineByKeyWithClassTag. 会触发shuffle
join相关的方法, 一般都是调用了cogroup, 进而调用了mapValues.
总而言之, 重新映射的方法底层都是map. 但是像join类这样, 可以在参数中直接指定partitioner的, 都视为可以触发shuffle

触发`shuffle`

values聚合方法

名称	功能
`distinct`
`groudByKey`	唯一一个在分区内部不聚合的, 避免使用
`reduceByKey`	无初始值, 聚合values
`flotByKey`	指定初始值, 初始值必须和values类型保持一致
`aggregateByKey`	可以分别指定分区聚合逻辑和整体聚合逻辑
`combineByKey`	更为底层的聚合算子, 可以变换数据类型

连接查询

名称	功能
`leftOuterJoin`	左外连接
`rightOuterJoin`	右外连接
`join`	内连接
`cogroup`	全外连接
`intersection`	求交集, 去重
`repartition`	重新分区, 默认开启shuffle
`coalesce`	分区多变少可以不shuffer
`subtract`	移除一个RDD中的内容

其它

名称	功能
`sortByKey`	`new ShuffledRDD`
`sortBy`	`keyBy` + `sortByKey` + `values`

不触发`shuffle`

map相关方法

名称	功能
`map`	映射, 转换数据集
`mapPartition`	以分区为单位的`map`, 速度快但是耗费内存
`mapPartitionWhitIndex`	自带分区信息
`flatMap`	映射(`map`)并压平`flatten`
`mapValues`	只映射转换`values`
`keyBy`	指定键
`filter`	过滤

其它

名称	底层
`union`	`new UnionRDD`

最后

以上就是谦让大米为你收集整理的spark-core相关知识点的全部内容，希望文章能够帮你解决spark-core相关知识点所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错，欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：题库
浏览次数：83 次浏览
发布日期：2024-01-02 06:20:06
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_23_ocf2_14_z_14_1.html

spark-core相关知识点

概述

摘要

概述

Spark特点

Spark核心组件

Spark和MR

Spark启动

启动细节

RDD

特性

弹性体现

属性

`Job`生成和提交逻辑

`Job`提交

常用算子

`Action`算子

`Transformation`算子

触发`shuffle`

不触发`shuffle`

最后

评论列表共有 0 条评论

发表评论取消回复

spark-core相关知识点

概述

摘要

概述

Spark特点

Spark核心组件

Spark和MR

Spark启动

启动细节

RDD

特性

弹性体现

属性

Job生成和提交逻辑

Job提交

常用算子

Action算子

Transformation算子

触发shuffle

不触发shuffle

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

`Job`生成和提交逻辑

`Job`提交

`Action`算子

`Transformation`算子

触发`shuffle`

不触发`shuffle`

发表评论取消回复