CDH集群间数据迁移一、库、表schema迁移二、data迁移

187 阅读 0 评论 124 点赞

我是靠谱客的博主老实皮皮虾，这篇文章主要介绍CDH集群间数据迁移一、库、表schema迁移二、data迁移，现在分享给大家，希望可以做个参考。

工作中，需要进行不同集群间数据迁移（这里演示CDH5->CDH6），迁移分为2个步骤：
1、库、表shema迁移
2、数据迁移

一、库、表schema迁移

核心思想主要是构建建库、建表语句，传统数据仓库大概都会有stage、ods、dw、dm、default等数据分层体系。
于是考虑使用shell脚本，将所有库及其下的表导出一份，然后再通过sed、awk或编辑软件的猎魔师制作建表语句。

①、获取所有DB及其下tables

gen_hive_db_tables.sh

#!/bin/bash
hive_databases='stage
ods
dw
dm
default'
for db in $hive_databases
do
hive -e "use $db; show tables;" > ./db_tables/${db}_all_tables.txt
done

执行完毕后，就生成了针对每个库下的所有table list。

②、构建建表语句

;select '\;';
show create table default.tbl_a
;select '\;';
show create table stage.tbl_b
;select '\;';
show create table ods.tbl_c
;select '\;';
show create table dw.tbl_d
;select '\;';
show create table dm.tbl_e
;select '\;'

可以按库分开构建，也可以将所有的库下表导入到一个大的文件中，然后构建一份大的建表语句。
创建完毕后，使用如下命令构建建表语句：

hive -f gen_tbl_ddl.sql > tbl_ddl.sql

构建完毕后，同样使用上述命令执行，即完成建表语句的创建。

二、data迁移

data迁移可以自己写代码实现，但hadoop已经针对该应用场景提供了基于M/R方式的数据迁移工具distcp工具。

如下代码为针对不同库表，进行数据迁移命令构建流程：

#!/bin/bash
hive_databases='stage
ods
dw
dm
default'
for db in $hive_databases;do
tbl_file=`ls ./db_tables|grep $db`
for tbl in `cat ./db_tables/$tbl_file`
do
#echo $tbl
echo "hadoop distcp -update -delete -m 200 webhdfs://cdh_cluster1:50070/user/hive/warehouse/$db/$tbl webhdfs://cdh_cluster2:9870/user/hive/warehouse/$db/$tbl" >> distcp_for_${db}.txt
done
done

注意如下参数区别：
-update
-delete
-overwrite
-m