Spark解决数据倾斜和Spark分区)
解决Spark数据倾斜1、先用sample(false,0,x)采用key,找出倾斜的key2、将数据集拆分成倾斜部分和不倾斜部分3、不倾斜部分走正常路线4、倾斜部分前面加上前缀5、重分区 => 聚合 => 去掉前缀 => 聚合6、如果是大表join大表,其中一个表有数据倾斜,就需要用膨胀法,将倾斜部分的key加上一个0-n的前缀,一条数据膨胀成n条,然后将另一个表的...