我是靠谱客的博主 欢喜玉米,最近开发中收集的这篇文章主要介绍Hadoop(三)自定义combiner和partitioner,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

Hadoop提供了缺省的Partition来完成map的输出向reduce分发处理。有时也需要自定义partition来将相同key值的数据分发到同一个reduce处理,为了减少map过程输出的中间结果键值对的数量,降低网络数据通信开销,用户也可以自定制combiner过程。

自定制Partition过程:

在mapreduce中,partition用于决定Map节点输出将被分到哪个Reduce节点,MapReduce提供的缺省Partition是HashPartition,他根据每条数据的主键值进行hash操作,获得一个hash码,然后对当前的分区数量进行取模计算,以此决定分发到哪个reduce节点。用户自定制的Partition,重载了getPartition()方法,对于上篇的倒排索引复合键将<itr.nextToken()+":"+split.getPath().toString().substring(splitIndex),"1">拆开.代码:

[cpp]  view plain copy
  1. public class NewPartition extends HashPartitioner<Text,Text>{  
  2.             String keyinfo;  
  3.             public int getPartition(Text key,Text value,int numReducerTasks){  
  4.                 keyinfo = key.toString().split(":")[0];  
  5.                 return super.getPartition(new Text(keyinfo), value, numReducerTasks);  
  6.             }  
  7.         }  
自定制的partition使用:

job.setPartitionClass(NewPartition.class);
而用户自定制的combiner,借鉴上篇的倒排索引的部分代码:

[java]  view plain copy
  1. public static class combiner extends Reducer<Text,Text,Text,Text>{  
  2.         private Text info = new Text(); //为了拆分 key值 准备存储新的value值  
  3.         public void reduce(Text key,Iterable<Text>values,Context context) throws IOException, InterruptedException{  
  4.             int sum = 0;  
  5.             for(Text val:values){  
  6.                 sum += Integer.parseInt(val.toString());  
  7.             }  
  8.             int splitIndex = key.toString().indexOf(":");  
  9.             info.set(key.toString().substring(splitIndex+1)+":"+sum);   //新的value值  
  10.             key.set(key.toString().substring(0, splitIndex));  
  11.             context.write(key, info);  
  12.         }  
  13.     }  

自定制的combiner用:

job.setCombinerClass(combiner.class);

最后

以上就是欢喜玉米为你收集整理的Hadoop(三)自定义combiner和partitioner的全部内容,希望文章能够帮你解决Hadoop(三)自定义combiner和partitioner所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(68)

评论列表共有 0 条评论

立即
投稿
返回
顶部