沉静小天鹅

文章
5
资源
0
加入时间
3年0月8天

hive优化实战

hive超大数据量优化:原理:左表关联字段key使用随机函数拼接n个整数,打散key,减少每个key生成reduce的个数,右表翻n倍,关联后产生大量key的reduce被分散到n个reduce里面。实现:使用随机函数rand(),实例为int(round(rand()))随机生成0和1整数,左表(总数据量n)关联字段拼接随机数0-1两个,concat(a.nameid,int(round(rand()))),右表数据量翻1倍(关联字段nameid数据a拼接0为a0(总数据量n),a拼接1为a1