Spark算子--map和mapPartition的区别,配实例讲解
map和mapParttion都是spark的算子,他们在进行数据处理时有一定的区别:map是RDD中的每一个元素进行操作。 mapPartition是对RDD的每一个分区的迭代器进行操作,返回的是迭代器。mapPartiton的优势:提高性能,比如我们对一个含有100条log数据的分区进行操作,使用map的话函数要执行100次计算。使用MapPartitions操作之后,一个task...