第四节课 hadoop总结
mapreduce优化总结1、通过修改map的切片大小控制map数量(尽量和block大小保持一致)并不是map越多越好,根据集群资源set mapred.max.split.size=2560000002、合并小文件。因为一个文件会至少生成一个map3、避免数据倾斜4、combine操作 map端的预聚合5、mapjoin操作 map小表广播6、适当备份,因为备份多可以本地化生成map任务yarn运行流程1、提交一个mapreduce mr运行需要资源,资源在rm中