Hive小文件的解决方案
第一种:从数据产生的途径上进行解决。1)尽量用sequencefile (SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。),减少使用textfile (文本文件),从一定程度上能减少小文件的产生。2)可以减少reduce的个数,3)少用动态表,多用distribute by 分区第二种:对于已经存在的小文件进行解决方案。1)可以用hadoop achieve 归档命令,对文件进行归档。2)重建表,重建表的时候来设.