hive中小文件的产生原因 如何合并小文件 以及控制Map个数,增加/缩小map个数,
两种方式控制Map数:即减少map数和增加map数背景:首先同时可执行的map数是有限的。•通常情况下,作业会通过input的目录产生一个或者多个map任务•主要的决定因素有: input的文件总个数,input的文件大小。•举例a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(block为128M,6个128m的块和1个12m的块),从而...