hive.groupby.skewindata=true作用

331 阅读 0 评论 219 点赞

我是靠谱客的博主成就热狗，这篇文章主要介绍hive.groupby.skewindata=true作用，现在分享给大家，希望可以做个参考。

转载来自：https://www.jianshu.com/p/9b62b9344ed5

set hive.groupby.skewindata=true；//决定
group by 操作是否支持倾斜数据。

注意：只能对单个字段聚合。
控制生成两个MR Job,第一个MR Job Map的输出结果随机分配到reduce中减少某些key值条数过多某些key条数过小造成的数据倾斜问题。
在第一个 MapReduce 中，map 的输出结果集合会随机分布到 reduce 中，每个reduce 做部分聚合操作，并输出结果。这样处理的结果是，相同的 Group By Key 有可能分发到不同的reduce中，从而达到负载均衡的目的；
第二个 MapReduce 任务再根据预处理的数据结果按照 Group By Key 分布到 reduce 中（这个过程可以保证相同的 Group By Key 分布到同一个 reduce 中），最后完成最终的聚合操作。