概述
最近做数据迁移项目,把聚合部分从kettle迁移到hadoop集群上,需要写很多聚合脚本
在论坛是看到alipay同事写过类似cube的UDAF,代码拿过来运行下报错,有几个地方没看多,而且没有注释,只好从基础开始看,自己搞一个,之前写过UDF所以入手还是听快的
准备:
1、实现自己的UDAF需要集成UDAF
2、至少有一个内部类,实现了org.apache.hadoop.hive.ql.exec.UDAFEvaluator
3、必须写 inin方法
4、并且有个方法名叫iterate() 参数任意,这个方法是函数入口
5、并且要有terminatePartial,merge,terminate,算上上面的共5个方法,下面一一讲解
public class Mean extends UDAF {
public static class MeanDoubleUDAFEval implements UDAFEvaluator {
public static class PartialResult {
double sum;
long count;
}
private PartialResult pResult;
@Override
public void init() {
pResult = null;
}
public boolean iterate(DoubleWritable value) {
if (value == null) {
return true;
}
if (pResult == null) {
pResult = new PartialResult();
}
pResult.sum += value.get();
pResult.count++;
return true;
}
public PartialResult terminatePartial() {
return pResult;
}
public boolean merge(PartialResult other) {
if (other == null) {
return true;
}
if (pResult == null) {
pResult = new PartialResult();
}
pResult.sum += other.sum;
pResult.count++;
return true;
}
public DoubleWritable terminate() {
if (pResult == null) {
return null;
}
return new DoubleWritable(pResult.sum / pResult.count);
}
}
inin()函数可以用来做初始化操作,一般会将统计变量置空,重置内部状态
iterate方法是函数的入口,参数个数和类型和udaf实现功能息息相关
terminatePartial 需要部分聚集是调用该函数,因为计算是不同的数据块会分到不同的map端,计算之后再传输到reduce端,很多计算是可以在map后面继续计算一次,比如求最大值(求平均值则不可以),这个时候就会调用terminatePartial函数,函数必须返回一个封装了聚集计算当前状态的对象,传入reduce端
merge函数,数据传输到reduce端前调用该函数,所以入参必须和terminatePartial返回值相同
terminate函数:hive最终聚集时会调用terminate,返回计算结果
最后
以上就是会撒娇太阳为你收集整理的hive UDAF求平均值的全部内容,希望文章能够帮你解决hive UDAF求平均值所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复