如意汉堡

文章
7
资源
0
加入时间
3年0月9天

spark2.2.0:记录一次数据倾斜的解决(扩容join)!

前言:数据倾斜,一个在大数据处理中很常见的名词,经由前人总结,现已有不少数据倾斜的解决方案(而且会发现大数据的不同框架的数据倾斜解决思想是一致的,只是实现方法不同),本文重点记录这次遇到spark处理数据中的倾斜问题。老话:菜鸡一只,本人会对文中的结论负责,如果有说错的,还请各位批评指出!起因:事情是这样的:有一批数据在hive的表中(我们称它为表A,表A中有不同网站的域名),要对这批数据进行处理...