我是靠谱客的博主 超级芒果,最近开发中收集的这篇文章主要介绍大数据的压缩与存储压缩分片行式存储与列式存储,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

压缩

压缩的好处

1.提升磁盘的利用率
2.加速网络传输

压缩的坏处

压缩解压需要消耗cpu

压缩的技术

  • 有损
  • 无损

压缩比

源文件1.4G

压缩技术剩余大小
snappy701M
Lz4693M
LZO684M
gzip447M
Bzip2390M

压缩得越小,消耗的时间越多,速度越慢

分片

bzip,lzo(需要创建索引 create index) 支持分片,其余压缩方式都不支持分片
压缩的位置讲解
三个方框是三个可以进行压缩的阶段

  1. 阶段1是输入的阶段,要用可分片的压缩方式
  2. 要用速度快的
  3. 分情况:如果数据用于归档,采用高压缩比的压缩方式;如果数据用于下一个作业输入,要用可分片的

行式存储与列式存储

  • 行式存储:所有数据都存储在一个块中;适合读所有数据的情况;如果只需要读其中几列,它会把所有数据都出来 [textfile]
  • 列式存储:数据存在多个块中;适合读部分数据;读所有数据时,会发生数据重组 [orc,parquet]
    大数据中,99%的情况都用列式存储

最后

以上就是超级芒果为你收集整理的大数据的压缩与存储压缩分片行式存储与列式存储的全部内容,希望文章能够帮你解决大数据的压缩与存储压缩分片行式存储与列式存储所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(61)

评论列表共有 0 条评论

立即
投稿
返回
顶部