飞快大雁

文章
4
资源
0
加入时间
2年10月21天

Hive解决小文件一、小文件的产生源头二、小文件产生的影响三、解决小文件

一、小文件的产生源头1.数据源本身就是有很多小文件2.动态分区插入数据产生大量小文件,导致map数据剧增3.reduce个数越多小文件的个数越多4.insert插入数据时也会产生过多小文件:ReduceTask数量*分区数=文件数或MapTask*分区数=文件数二、小文件产生的影响1.对于它的存储底层Hdfs来说,HDFS本身就不适合存储小文件,每一个小文件就是150Byte如果大量的小文件产生会导致NameNode元数据增多,占用大量内存2.对于hive来说,每一个小文.