SparkCore02 MapPatitionsWithIndexSparkCore02

204 阅读 0 评论 135 点赞

我是靠谱客的博主笑点低绿草，这篇文章主要介绍SparkCore02 MapPatitionsWithIndexSparkCore02，现在分享给大家，希望可以做个参考。

SparkCore02

RDD创建方式

Parallelized Coleections [test]
External Datasets [FS]
算子转换得到 [Transformation]

RDD操作

transformation
从一个存在得RDD到一个新得数据集
a==>b==>c lazy 操作不会触发作业得执行
action
返回一个值到driver program(终端)
立刻执行真正得产生作业(job)在spark中运行

MapPatitionsWithIndex 可查看每个分区内得元素


sc.parallelize(List(1,2,3,4,5),2).mapPartitionsWithIndex((index, partition) => {
println("这是一个分区")
partition.map(x => s"分区$index,元素$x")
}).foreach(println)
这是一个分区
分区0,元素1
分区0,元素2
这是一个分区
分区1,元素3
分区1,元素4
分区1,元素5

cogroup