热情大门

文章
7
资源
0
加入时间
3年0月20天

hadoop的shuffle和排序

shuffle和排序Shuffle阶段分为两部分:Map端和Reduce端。一 map端shuffle过程;1-内存预排序:默认每个map有100M内存进行预排序(为了效率),超过阈值,会把内容写到磁盘; 此过程使用快速排序算法;2-根据key和reducer的数量进行分区和排序;首先根据数据所属的Partition排序,然后每个Partition中再...