hive.map.aggr、hive.groupby.skewindata执行过程

304 阅读 0 评论 201 点赞

我是靠谱客的博主柔弱金针菇，这篇文章主要介绍hive.map.aggr、hive.groupby.skewindata执行过程，现在分享给大家，希望可以做个参考。

如果设置hive.map.aggr为true,hive.groupby.skewindata为true，执行流程如下：

这里写图片描述

会生成两个job来执行group by，第一个job中，各个map是平均读取分片的，在map阶段对这个分片中的数据根据group by 的key进行局部聚合操作，这里就相当于Combiner操作。
在第一次的job中，map输出的结果随机分区，这样就可以平均分到reduce中
在第一次的job中，reduce中按照group by的key进行分组后聚合，这样就在各个reduce中又进行了一次局部的聚合。
因为第一个job中分区是随机的，所有reduce结果的数据的key也是随机的，所以第二个job的map读取的数据也是随机的key，所以第二个map中不存在数据倾斜的问题。
在第二个job的map中，也会进行一次局部聚合。
第二个job中分区是按照group by的key分区的，这个地方就保证了整体的group by没有问题，相同的key分到了同一个reduce中。
经过前面几个聚合的局部聚合，这个时候的数据量已经大大减少了，在最后一个reduce里进行最后的整体聚合。

最后

以上就是柔弱金针菇最近收集整理的关于hive.map.aggr、hive.groupby.skewindata执行过程的全部内容，更多相关hive内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(201)

本文分类：Hive
浏览次数：304 次浏览
发布日期：2023-12-07 03:30:19

相关文章

【Hive】常见优化方法

hive 桶表插入数据方式 insert into overwrite

hive 桶表插入数据方式 insert into overwrite

sparkSql自定义UDF、UDAF、UDTF、Shuffle partition数量

sparkSql自定义UDF、UDAF、UDTF、Shuffle partition数量

spark streaming消费指定的topic和partition并手动更新offset

spark streaming消费指定的topic和partition并手动更新offset

hive.map.aggr、hive.groupby.skewindata执行过程

hive.map.aggr、hive.groupby.skewindata执行过程

SparkStreamingj集成Kafka的几个重要参数

SparkStreamingj集成Kafka的几个重要参数

SparkStreaming自适应上游kafka topic partition数目变化

SparkStreaming自适应上游kafka topic partition数目变化

使用spark-md5获取文件的MD5值

使用spark-md5获取文件的MD5值

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部