醉熏曲奇

文章
5
资源
0
加入时间
3年0月8天

mapPartitions

rdd的mapPartitions是map的一个变种,它们都可进行分区的并行处理。    两者的主要区别是调用的粒度不一样:map的输入变换函数是应用于RDD中每个元素,而mapPartitions的输入函数是应用于每个分区。    假设一个rdd有10个元素,分成3个分区。如果使用map方法,map中的输入函数会被调用10次;而使用mapPartitions方法的话,其输入函数会只会被调