基于CDH5集群配置snappy压缩

80 阅读 0 评论 53 点赞

我是靠谱客的博主优雅滑板，这篇文章主要介绍基于CDH5集群配置snappy压缩，现在分享给大家，希望可以做个参考。

基于CDH5集群配置snappy压缩，配置步骤如下：

1、常用的三种压缩gzip,lzo,snappy，经分析对比

算法压缩后/压缩前压缩速度解压速度
GZIP 13.4% 21 MB/s 118 MB/s
LZO 20.5% 135 MB/s 410 MB/s
Snappy 22.2% 172 MB/s 409 MB/s

snappy综合实力最佳，lzo我们也尝试使用，但是常导致个别老机器down机。

2、配置hdfs的core-site.xml相应压缩项

  <property>
    <name>io.compression.codecs</name>
    <value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.DeflateCodec,org.apache.hadoop.io.compress.SnappyCodec,org.apache.hadoop.io.compress.Lz4Codec</value>
  </property>

3、配置mapreduce的mapred-site.xml压缩项

  <property>
    <name>mapreduce.output.fileoutputformat.compress</name>
    <value>true</value>
  </property>
  <property>
    <name>mapreduce.output.fileoutputformat.compress.type</name>
    <value>BLOCK</value>
  </property>
  <property>
    <name>mapreduce.output.fileoutputformat.compress.codec</name>
    <value>org.apache.hadoop.io.compress.SnappyCodec</value>
  </property>
  <property>
    <name>mapreduce.map.output.compress.codec</name>
    <value>org.apache.hadoop.io.compress.SnappyCodec</value>
  </property>
  <property>
    <name>mapreduce.map.output.compress</name>
    <value>true</value>
  </property>

4、配置hive的hive-site.xml压缩项

<property>
  <name>hive.enforce.bucketing</name>
  <value>true</value>
</property>
<property>
  <name>hive.exec.compress.output</name>
  <value>true</value>
</property>
<property>
  <name>io.compression.codecs</name>
  <value>org.apache.hadoop.io.compress.SnappyCodec</value>
</property>
<property>
  <name>hive.auto.convert.join</name>
  <value>false</value>
</property>
<property>
  <name>hive.support.concurrency</name>
  <value>false</value>
</property>

5、配置spark的压缩项

spark-env.sh

export JAVA_HOME=/usr/java/jdk1.7.0_67-cloudera
export SPARK_MASTER_IP=10.130.2.20
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=48
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=37g
export HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoop
export JAVA_LIBRARY_PATH=$JAVA_LIBRARY_PATH:$HADOOP_HOME/lib/native
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$HADOOP_HOME/lib/native
export SPARK_LIBRARY_PATH=$SPARK_LIBRARY_PATH:$HADOOP_HOME/lib/native
export SPARK_CLASSPATH=$SPARK_CLASSPATH:$HADOOP_HOME/lib/snappy-java-1.0.4.1.jar

spark-defaults.conf

spark.local.dir /diskb/sparktmp,/diskc/sparktmp,/diskd/sparktmp,/diske/sparktmp,/diskf/sparktmp,/diskg/sparktmp
spark.io.compression.codec snappy

总结：

经过如上配置，集群中的mr, hive ,spark的作业，都会以snappy进行压缩处理，极大的减少了IO的消耗，提高了性能。

最后

以上就是优雅滑板最近收集整理的关于基于CDH5集群配置snappy压缩的全部内容，更多相关基于CDH5集群配置snappy压缩内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：Hive
浏览次数：80 次浏览
发布日期：2023-09-06 17:05:08
本文链接：https://www.kaopuke.com/article/k-p-k_14_uzo_10_f2_12__23__6_0.html

基于CDH5集群配置snappy压缩

最后

评论列表共有 0 条评论

发表评论取消回复

基于CDH5集群配置snappy压缩

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复