明亮黑米

文章
4
资源
0
加入时间
2年10月21天

python 实现Hadoop的partitioner和二次排序!/bin/sh cat!/bin/sh sort

我们知道,一个典型的Map-Reduce过程包 括:Input->Map->Patition->Reduce->Output。Pation负责把Map任务输出的中间结果 按key分发给不同的Reduce任务进行处理。Hadoop 提供了一个非常实用的partitioner类KeyFieldBasedPartitioner,通过配置相应的参数就可以使用。通过 KeyFieldBasedPartitio