妩媚耳机

文章
7
资源
0
加入时间
3年0月21天

解决hive表小文件过多问题

背景前些时间,运维的同事反应小文件过多问题,需要我们去处理,所以想到是以何种手段去合并现有的小文件。我们知道Hadoop需要在namenode维护文件索引相关的metadata,所以小文件过多意味着消耗更大的内存空间。过程经过网上的调研发现通过hive表使用orc格式进行存储能够通过concatenate命令对分区进行小文件合并,并且能够节省80%以上的存储空间,真是喜闻乐见!本文不再详...