听话马里奥

文章
5
资源
0
加入时间
3年1月11天

MR-2.输入格式(InputFormat)CombineFileInputFormat源码分析

Hadoop处理少量的大文件比处理大量的小文件更好,主要因为FileInputFormat对单个文件会至少生成一个InputSplit。若文件比HDFS 的Block小的话,将产生多个InputSplit,让多个MapTask任务处理。 解决方案,通过CombineFileInputFormat将多个小文件封装,形成一个大InputSplit,然后maptask处理封装后的InputSpl