我是靠谱客的博主 笑点低绿草,最近开发中收集的这篇文章主要介绍SparkCore02 MapPatitionsWithIndexSparkCore02,觉得挺不错的,现在分享给大家,希望可以做个参考。
概述
SparkCore02
RDD创建方式
- Parallelized Coleections [test]
- External Datasets [FS]
- 算子转换得到 [Transformation]
RDD操作
- transformation
从一个存在得RDD到一个新得数据集
a==>b==>c lazy 操作 不会触发作业得执行 - action
返回一个值到driver program(终端)
立刻执行 真正得产生作业(job)在spark中运行
MapPatitionsWithIndex 可查看每个分区内得元素
sc.parallelize(List(1,2,3,4,5),2).mapPartitionsWithIndex((index, partition) => {
println("这是一个分区")
partition.map(x => s"分区$index,元素$x")
}).foreach(println)
这是一个分区
分区0,元素1
分区0,元素2
这是一个分区
分区1,元素3
分区1,元素4
分区1,元素5
cogroup
内部为迭代得东西
最后
以上就是笑点低绿草为你收集整理的SparkCore02 MapPatitionsWithIndexSparkCore02的全部内容,希望文章能够帮你解决SparkCore02 MapPatitionsWithIndexSparkCore02所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复