- reduce:聚集 RDD 中的所有元素,先聚合分区内数据,再聚合分区间数据
- collect:以数组 Array 的形式返回数据集的所有元素
- count:返回 RDD 中元素的个数
- first:返回 RDD 中的第一个元素
- take:返回一个由 RDD 的前 n 个元素组成的数组
- takeOrdered:返回该 RDD 排序后的前 n 个元素组成的数组
- aggregate:分区的数据通过初始值和分区内的数据进行聚合,然后再和初始值进行分区间的数据聚合
aggregateByKey:初始值只会参与分区内计算
aggregate:初始值会参与分区内计算,并且和参与分区间计算 - fold:折叠操作,aggregate 的简化版操作
- countByKey:统计每种 key 的个数
- save 相关算子:将数据保存到不同格式的文件中
def saveAsTextFile(path: String): Unit
def saveAsObjectFile(path: String): Unit
def saveAsSequenceFile - foreach:分布式遍历 RDD 中的每一个元素(无序的)
最后
以上就是爱笑柠檬最近收集整理的关于spark RDD 行动算子的全部内容,更多相关spark内容请搜索靠谱客的其他文章。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复