我是靠谱客的博主 爱笑柠檬,这篇文章主要介绍spark RDD 行动算子,现在分享给大家,希望可以做个参考。

  1. reduce聚集 RDD 中的所有元素,先聚合分区内数据,再聚合分区间数据
  2. collect:以数组 Array 的形式返回数据集的所有元素
  3. count:返回 RDD 中元素的个数
  4. first:返回 RDD 中的第一个元素
  5. take:返回一个由 RDD 的前 n 个元素组成的数组
  6. takeOrdered:返回该 RDD 排序后前 n 个元素组成的数组
  7. aggregate分区的数据通过初始值分区内的数据进行聚合,然后再和初始值进行分区间的数据聚合
    aggregateByKey初始值只会参与分区内计算
    aggregate初始值会参与分区内计算,并且和参与分区间计算
  8. fold:折叠操作,aggregate 的简化版操作
  9. countByKey:统计每种 key 的个数
  10. save 相关算子:将数据保存到不同格式的文件
    def saveAsTextFile(path: String): Unit
    def saveAsObjectFile(path: String): Unit
    def saveAsSequenceFile
  11. foreach分布式遍历 RDD 中的每一个元素无序的

最后

以上就是爱笑柠檬最近收集整理的关于spark RDD 行动算子的全部内容,更多相关spark内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(44)

评论列表共有 0 条评论

立即
投稿
返回
顶部