hive优化总结 1.我们知道大数据场景下不害怕数据量大,害怕的是数据倾斜,怎样避免数据倾斜,找到可能产生数据倾斜的函数尤为关键,数据量较大的情况下,慎用count(distinct),count(distinct)容易产生倾斜问题。2.设置合理的map reduce 的task数量map阶段优化mapred.min.split.size: 指的是数据的最小分割单元大小;min的默认值是1Bmapred.m... 大数据 2023-10-04 44 点赞 0 评论 66 浏览