单身花瓣

文章
3
资源
0
加入时间
2年10月21天

大数据里常见的几种压缩格式压缩

离线处理流程:为什么使用压缩当使用MapReduce经过ETL后落到HDFS上时,若使用普通文本格式TXT ,那一般副本数为三,若一个副本为500T,500*3=1500? 显然是不现实的。压缩的第一个好处,就是节省我们的磁盘空间,提升磁盘利用率,第二个就是加速我们网络的传输。缺点:需要占用cpu资源进行压缩与解压,且,压缩与解压需要时间。!!!所以如果整个集群cpu利用率非常高,不要...