Map join引起的数据倾斜问题的解释
Map join引起的数据倾斜问题的解释普通的join,那么肯定要走shuffle,那么普通的join 肯定走的是reduce join先将所有相同的key,对应的values,汇聚到一个task中,然后再进行join。将reduce join转换为map join。spark中 如果两个RDD要进行join,其中一个RDD是比较小的。一个RDD是一百万数据,一个RDD是一万数据。如果...