我是靠谱客的博主 笑点低绿草,最近开发中收集的这篇文章主要介绍SparkCore02 MapPatitionsWithIndexSparkCore02,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

SparkCore02

RDD创建方式

  1. Parallelized Coleections [test]
  2. External Datasets [FS]
  3. 算子转换得到 [Transformation]

RDD操作

  1. transformation
    从一个存在得RDD到一个新得数据集
    a==>b==>c lazy 操作 不会触发作业得执行
  2. action
    返回一个值到driver program(终端)
    立刻执行 真正得产生作业(job)在spark中运行

MapPatitionsWithIndex 可查看每个分区内得元素


sc.parallelize(List(1,2,3,4,5),2).mapPartitionsWithIndex((index, partition) => {
println("这是一个分区")
partition.map(x => s"分区$index,元素$x")
}).foreach(println)
这是一个分区
分区0,元素1
分区0,元素2
这是一个分区
分区1,元素3
分区1,元素4
分区1,元素5

cogroup

内部为迭代得东西

最后

以上就是笑点低绿草为你收集整理的SparkCore02 MapPatitionsWithIndexSparkCore02的全部内容,希望文章能够帮你解决SparkCore02 MapPatitionsWithIndexSparkCore02所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(50)

评论列表共有 0 条评论

立即
投稿
返回
顶部