spark RDD 行动算子

66 阅读 0 评论 44 点赞

我是靠谱客的博主爱笑柠檬，这篇文章主要介绍spark RDD 行动算子，现在分享给大家，希望可以做个参考。

reduce：聚集 RDD 中的所有元素，先聚合分区内数据，再聚合分区间数据
collect：以数组 Array 的形式返回数据集的所有元素
count：返回 RDD 中元素的个数
first：返回 RDD 中的第一个元素
take：返回一个由 RDD 的前 n 个元素组成的数组
takeOrdered：返回该 RDD 排序后的前 n 个元素组成的数组
aggregate：分区的数据通过初始值和分区内的数据进行聚合，然后再和初始值进行分区间的数据聚合
aggregateByKey：初始值只会参与分区内计算
aggregate：初始值会参与分区内计算，并且和参与分区间计算
fold：折叠操作，aggregate 的简化版操作
countByKey：统计每种 key 的个数
save 相关算子：将数据保存到不同格式的文件中
def saveAsTextFile(path: String): Unit
def saveAsObjectFile(path: String): Unit
def saveAsSequenceFile
foreach：分布式遍历 RDD 中的每一个元素（无序的）