深入理解Mapreduce(shuffle机制、数据倾斜、切片机制)
1. MapReduce介绍map:映射(键值对) 最小化数据单元,把每个单元以键值对的形式发送到下一个环节reduce:减少,合并。把map端送过来的最小化数据,按照key相同,value值做运算map阶段输出数据的形式:(key,value)---------------- shuffle机制 -----------------------------reduce阶段接收形式:(key,(value,value,value))注意:map读取数据是按行读取,key是偏移量,value是每一行