SparkCore02
RDD创建方式
- Parallelized Coleections [test]
- External Datasets [FS]
- 算子转换得到 [Transformation]
RDD操作
- transformation
从一个存在得RDD到一个新得数据集
a==>b==>c lazy 操作 不会触发作业得执行 - action
返回一个值到driver program(终端)
立刻执行 真正得产生作业(job)在spark中运行
MapPatitionsWithIndex 可查看每个分区内得元素
sc.parallelize(List(1,2,3,4,5),2).mapPartitionsWithIndex((index, partition) => {
println("这是一个分区")
partition.map(x => s"分区$index,元素$x")
}).foreach(println)
这是一个分区
分区0,元素1
分区0,元素2
这是一个分区
分区1,元素3
分区1,元素4
分区1,元素5
cogroup
内部为迭代得东西
最后
以上就是笑点低绿草最近收集整理的关于SparkCore02 MapPatitionsWithIndexSparkCore02的全部内容,更多相关SparkCore02内容请搜索靠谱客的其他文章。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复