cdh6.2的存储和计算分离

125 阅读 0 评论 83 点赞

我是靠谱客的博主阔达豆芽，最近开发中收集的这篇文章主要介绍cdh6.2的存储和计算分离，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

cdh6.2中提供了一种新类型的集群，称计算集群。计算集群运行Impala，Spark，Yarn等计算服务，但可以配置这些服务以访问托管在另一个CDH集群中的数据。使用此架构，可以通过各种方式分离计算和存储资源。

以下是两种存储分离方式

两套cdh测试环境

cm和cdh版本6.2.0

redhat7.4

第一种方式

集群A的存储更换到集群B上

1、hdfs配置

core-site.xml的集群范围高级配置代码段（安全阀）中新增fs.defaultFS，参数为hdfs://B集群ip:8020/

2、hive配置

如果不想使用B集群默认的hive仓库目录/user/hive/warehouse/目录，可以在B集群创建个目录，将hive仓库目录指定到新建目录上

如果想变更原表路径，可参考我的另一篇文章《cdh-hdfs变更nameservice后一系列hive问题》

https://blog.csdn.net/u013176920/article/details/88977412

3、hbase配置

在hbase-site.xml的Hbase服务高级配置代码段（安全阀）中新增hbase.rootdir，值为
hdfs://B集群ip:8020/hbase，并勾选final选项，将HBase的数据路径设置到存储侧。

在A集群的任意一个节点输入如下命令：
hbase zkcli
#进入zk缓存
rmr /hbase
#清理hbase缓存目录
quit
#退出

4、spark配置

将A集群的HDFS上的/user/spark/applicationHistory目录（spark.eventLog.dir默认值）完整复制到B集群，并将权限和用户设置和A集群上/user/spark/applicationHistory目录一致。
在A集群的任意一个节点输入如下命令：
#将A集群applicationHistory目录拷贝到本地tmp目录
hdfs dfs -get hdfs://A集群ip:8020/user/spark/applicationHistory /tmp

#在B集群上创建A集群applicationHistory目录
hdfs dfs -mkdir -p hdfs://B集群ip:8020/user/spark

#将A集群applicationHistory目录完整拷贝到B集群根目录
hdfs dfs -put /tmp/applicationHistory hdfs://B集群ip:8020/user/spark

#设置applicationHistory目录
hdfs dfs -chown -R spark hdfs://B集群ip:8020/user/spark/applicationHistory

5、重启A集群，重新部署客户端

6、验证hdfs 、yarn、hive、hbase等等组件均正常

总结：此种方法可以更换存储到任何一个hdfs集群上，不限于cdh集群，华为HD集群测试也是没问题的。