Hive--数据倾斜以及解决方案
数据倾斜一:什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点 ,简单来说就是大量相同的key被partition到同一个分区里面导致某些或者某个reducetask压力过大,而一些reducetask闲住。这样也违背了并行计算的初衷。二:数据倾斜的主要表现? 任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面,发现只有少量 reduce 子任...