我是靠谱客的博主 笑点低绿草,这篇文章主要介绍SparkCore02 MapPatitionsWithIndexSparkCore02,现在分享给大家,希望可以做个参考。

SparkCore02

RDD创建方式

  1. Parallelized Coleections [test]
  2. External Datasets [FS]
  3. 算子转换得到 [Transformation]

RDD操作

  1. transformation
    从一个存在得RDD到一个新得数据集
    a==>b==>c lazy 操作 不会触发作业得执行
  2. action
    返回一个值到driver program(终端)
    立刻执行 真正得产生作业(job)在spark中运行

MapPatitionsWithIndex 可查看每个分区内得元素


sc.parallelize(List(1,2,3,4,5),2).mapPartitionsWithIndex((index, partition) => {
println("这是一个分区")
partition.map(x => s"分区$index,元素$x")
}).foreach(println)
这是一个分区
分区0,元素1
分区0,元素2
这是一个分区
分区1,元素3
分区1,元素4
分区1,元素5

cogroup

内部为迭代得东西

最后

以上就是笑点低绿草最近收集整理的关于SparkCore02 MapPatitionsWithIndexSparkCore02的全部内容,更多相关SparkCore02内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(44)

评论列表共有 0 条评论

立即
投稿
返回
顶部