概述
一:HBase
与
Hive
的对比
1
.
Hive
(1)
数据仓库
Hive
的本质其实就相当于将
HDFS
中已经存储的文件在
Mysql
中做了一个双射关系,以
方便使用
HQL
去管理查询。
(2)
用于数据分析、清洗
Hive
适用于离线的数据分析和清洗,延迟较高。
(3)
基于
HDFS
、
MapReduce
Hive
存储的数据依旧在
DataNode
上,编写的
HQL
语句终将是转换为
MapReduce
代码执
行。
2
.
HBase
(1)
数据库
是一种
面向列族存储
的非关系型数据库。
(2)
用于存储结构化和非结构化的数据
适用于单表非关系型数据的存储,不适合做关联查询,类似
JOIN
等操作。
(3)
基于
HDFS
数据持久化存储的体现形式是
HFile
,存放于
DataNode
中,被
ResionServer
以
region
的形
式进行管理。
(4)
延迟较低,接入在线业务使用
面对大量的企业数据,
HBase
可以直线单表大量数据的存储,同时提供了高效的数据访问
速度。
二:HBase
与
Hive
集成使用
尖叫提示:
HBase
与
Hive
的集成在最新的两个版本中无法兼容。所以,我们只能含着泪勇
敢的重新编译:
hive-hbase-handler-1.2.2.jar!
重新编译方法:Hive与Hbase整合及hive-hbase-handler的jar包重新编译
三:环境准备
因为我们后续可能会在操作
Hive
的同时对
HBase
也会产生影响,所以
Hive
需要持有操作
HBase
的
Jar
,那么接下来拷贝
Hive
所依赖的
Jar
包
#环境变量
export HBASE_HOME=/opt/module/hbase
export HIVE_HOME=/opt/module/hive
----------------分割线------------------------
ln -s $HBASE_HOME/lib/hbase-common-1.3.1.jar $HIVE_HOME/lib/hbase-common-1.3.1.jar
ln -s $HBASE_HOME/lib/hbase-server-1.3.1.jar $HIVE_HOME/lib/hbaseserver-1.3.1.jar
ln -s $HBASE_HOME/lib/hbase-client-1.3.1.jar $HIVE_HOME/lib/hbase-client-1.3.1.jar
ln -s $HBASE_HOME/lib/hbase-protocol-1.3.1.jar $HIVE_HOME/lib/hbase-protocol-1.3.1.jar
ln -s $HBASE_HOME/lib/hbase-it-1.3.1.jar $HIVE_HOME/lib/hbase-it-1.3.1.jar
ln -s $HBASE_HOME/lib/htrace-core-3.1.0-incubating.jar $HIVE_HOME/lib/htrace-core-3.1.0incubating.jar
ln -s $HBASE_HOME/lib/hbase-hadoop2-compat-1.3.1.jar $HIVE_HOME/lib/hbase-hadoop2-compat-1.3.1.jar
ln -s $HBASE_HOME/lib/hbase-hadoop-compat-1.3.1.jar $HIVE_HOME/lib/hbase-hadoop-compat-1.3.1.jar
同时在
hive-site.xml
中修改
zookeeper
的属性,如下:案例
<property>
<name>hive.zookeeper.quorum</name>
<value>hadoop102,hadoop103,hadoop104</value>
<description>The list of ZooKeeper servers to talk to. This is
only needed for read/write locks.</description>
</property>
<property>
<name>hive.zookeeper.client.port</name>
<value>2181</value>
<description>The port of ZooKeeper servers to talk to. This is
only needed for read/write locks.</description>
</property>
四:案例实操
目标:
建立
Hive
表,关联
HBase
表,插入数据到
Hive
表的同时能够影响
HBase
表。
(1)
在
Hive
中创建表同时关联
HBase
create table hive_hbase_emp_table(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" =
":key,info:ename,info:job,info:mgr,info:hiredate,info:sal,info:co
mm,info:deptno")
TBLPROPERTIES ("hbase.table.name" = "hbase_emp_table");
完成之后,可以分别进入
Hive
和
HBase
查看,都生成了对应的表
(2)
在
Hive
中创建临时中间表,用于
load
文件中的数据
提示:
不能将数据直接
load
进
Hive
所关联
HBase
的那张表中
create table emp(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int)
row format delimited fields terminated by 't';
(3)
向
Hive
中间表中
load
数据
hive> load data local inpath '/home/admin/softwares/data/emp.txt'
into table emp;
注:此处的emp.txt文件需提前建立
(4)
通过
insert
命令将中间表中的数据导入到
Hive
关联
Hbase
的那张表中
hive> insert into table hive_hbase_emp_table select * from emp;
(5)
查看
Hive
以及关联的
HBase
表中是否已经成功的同步插入了数据
hive> select * from hive_hbase_emp_table;
(6)查看是否成功
Hbase> scan ‘hbase_emp_table’
最后
以上就是丰富香氛为你收集整理的HBase与 Hive 的集成的全部内容,希望文章能够帮你解决HBase与 Hive 的集成所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复