黑猴子的家：Hive 数据倾斜优化之 Reduce 数

369 阅读 0 评论 244 点赞

我是靠谱客的博主甜甜书包，这篇文章主要介绍黑猴子的家：Hive 数据倾斜优化之 Reduce 数，现在分享给大家，希望可以做个参考。

1、调整reduce个数方法一

（1）每个Reduce处理的数据量默认是256MB

hive.exec.reducers.bytes.per.reducer=256000000

（2）每个任务最大的reduce数，默认为1009

hive.exec.reducers.max=1009

（3）计算reducer数的公式
N=min(参数2，总输入数据量/参数1)

2、调整reduce个数方法二

在hadoop的mapred-default.xml文件中修改
设置每个job的Reduce个数

set mapreduce.job.reduces = 15;

3、reduce个数并不是越多越好

1）过多的启动和初始化reduce也会消耗时间和资源；

2）另外，有多少个reduce，就会有多少个输出文件，如果生成了很多个小文件，那么如果这些小文件作为下一个任务的输入，则也会出现小文件过多的问题；

在设置reduce个数的时候也需要考虑这两个原则：处理大数据量利用合适的reduce数；使单个reduce任务处理数据量大小要合适；

以上就是甜甜书包最近收集整理的关于黑猴子的家：Hive 数据倾斜优化之 Reduce 数的全部内容，更多相关黑猴子的家：Hive内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。