概述
1. HIVE结构
Hive是建立在 Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop中的大规模数据的机制。Hive定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL的用户查询数据。同时,这个语言也允许熟悉 MapReduce开发者的开发自定义的 mapper和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。
1.1HIVE架构
Hive的结构可以分为以下几部分:
-
用户接口:包括 CLI, Client, WUI
-
元数据存储。通常是存储在关系数据库如 mysql, derby 中
-
解释器、编译器、优化器、执行器
-
Hadoop:用 HDFS进行存储,利用MapReduce进行计算
-
用户接口主要有三个:CLI,Client和 WUI。其中最常用的是 CLI,Cli启动的时候,会同时启动一个 Hive副本。Client是 Hive 的客户端,用户连接至 Hive Server。在启动 Client模式的时候,需要指出 Hive Server所在节点,并且在该节点启动 Hive Server。 WUI是通过浏览器访问 Hive。
-
Hive 将元数据存储在数据库中,如 mysql、derby。Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。
-
解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS中,并在随后有 MapReduce调用执行。
-
Hive 的数据存储在 HDFS中,大部分的查询由 MapReduce完成(包含 * 的查询,比如 select * from tbl不会生成 MapRedcue任务)。
1.2Hive和Hadoop关系
Hive构建在 Hadoop之上,
-
HQL 中对查询语句的解释、优化、生成查询计划是由 Hive完成的
-
所有的数据都是存储在 Hadoop 中
-
查询计划被转化为 MapReduce 任务,在 Hadoop中执行(有些查询没有 MR任务,如:select * from table)
-
Hadoop和Hive都是用UTF-8编码的
1.3Hive和普通关系数据库的异同
| Hive | RDBMS |
查询语言 | HQL | SQL |
数据存储 | HDFS | Raw Device or Local FS |
索引 | 无 | 有 |
执行 | MapReduce | Excutor |
执行延迟 | 高 | 低 |
处理数据规模 | 大 | 小 |
-
查询语言。由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive的特性设计了类 SQL的查询语言 HQL。熟悉 SQL开发的开发者可以很方便的使用 Hive进行开发。
-
数据存储位置。Hive 是建立在Hadoop之上的,所有 Hive的数据都是存储在HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。
-
数据格式。Hive 中没有定义专门的数据格式,数据格式可以由用户指定,用户定义数据格式需要指定三个属性:列分隔符(通常为空格、”t”、”x001″)、行分隔符(”n”)以及读取文件数据的方法(Hive中默认有三个文件格式TextFile,SequenceFile以及 RCFile)[王黎1] 。由于在加载数据的过程中,不需要从用户数据格式到 Hive 定义的数据格式的转换,因此,Hive 在加载的过程中不会对数据本身进行任何修改,而只是将数据内容复制或者移动到相应的HDFS目录中。而在数据库中,不同的数据库有不同的存储引擎,定义了自己的数据格式。所有数据都会按照一定的组织存储,因此,数据库加载数据的过程会比较耗时。
-
数据更新。由于 Hive 是针对数据仓库应用设计的,而数据仓库的内容是读多写少的。因此,Hive中不支持对数据的改写和添加,所有的数据都是在加载的时候中确定好的。而数据库中的数据通常是需要经常进行修改的,因此可以使用 INSERT INTO ... VALUES添加数据,使用UPDATE... SET 修改数据。
-
索引。之前已经说过,Hive 在加载数据的过程中不会对数据进行任何处理,甚至不会对数据进行扫描,因此也没有对数据中的某些 Key建立索引。Hive要访问数据中满足条件的特定值时,需要暴力扫描整个数据,因此访问延迟较高。由于 MapReduce的引入, Hive可以并行访问数据,因此即使没有索引,对于大数据量的访问,Hive仍然可以体现出优势。数据库中,通常会针对一个或者几个列建立索引,因此对于少量的特定条件的数据的访问,数据库可以有很高的效率,较低的延迟。由于数据的访问延迟较高,决定了 Hive不适合在线数据查询。
-
执行。Hive 中大多数查询的执行是通过 Hadoop提供的 MapReduce来实现的(类似 select * from tbl的查询不需要 MapReduce)。而数据库通常有自己的执行引擎。
-
执行延迟。之前提到,Hive 在查询数据的时候,由于没有索引,需要扫描整个表,因此延迟较高。另外一个导致 Hive执行延迟高的因素是 MapReduce框架。由于 MapReduce本身具有较高的延迟,因此在利用 MapReduce执行 Hive查询时,也会有较高的延迟。相对的,数据库的执行延迟较低。当然,这个低是有条件的,即数据规模较小,当数据规模大到超过数据库的处理能力的时候,Hive的并行计算显然能体现出优势。
-
可扩展性。由于 Hive 是建立在 Hadoop之上的,因此 Hive的可扩展性是和 Hadoop 的可扩展性是一致的(世界上最大的 Hadoop集群在 Yahoo!,2009年的规模在4000台节点左右)。而数据库由于 ACID语义的严格限制,扩展行非常有限。目前最先进的并行数据库 Oracle在理论上的扩展能力也只有 100台左右。
-
数据规模。由于 Hive 建立在集群上并可以利用 MapReduce进行并行计算,因此可以支持很大规模的数据;对应的,数据库可以支持的数据规模较小。
1.4HIVE元数据库
Hive将元数据存储在 RDBMS中,一般常用的有MYSQL和DERBY。
1.4.1 DERBY
启动HIVE的元数据库
进入到hive的安装目录
Eg:
1、启动derby数据库
/home/admin/caona/hive/build/dist/
运行startNetworkServer -h 0.0.0.0
2、连接Derby数据库进行测试
查看/home/admin/caona/hive/build/dist/conf/hive-default.xml。
找到<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:derby://hadoop1:1527/metastore_db;create=true</value>
<description>JDBC connect string for a JDBCmetastore</description>
</property>
进入derby安装目录
/home/admin/caona/hive/build/dist/db-derby-10.4.1.3-bin/bin
输入./ij
Connect'jdbc:derby://hadoop1:1527/metastore_db;create=true';
3、元数据库数据字典
表名 | 说明 | 关联键 |
BUCKETING_COLS |
|
|
COLUMNS | Hive表字段信息(字段注释,字段名,字段类型,字段序号) | SD_ID |
DBS | 元数据库信息,存放HDFS路径信息 | DB_ID |
PARTITION_KEYS | Hive分区表分区键 | PART_ID |
SDS | 所有hive表、表分区所对应的hdfs数据目录和数据格式。 | SD_ID,SERDE_ID |
SD_PARAMS | 序列化反序列化信息,如行分隔符、列分隔符、NULL的表示字符等 | SERDE_ID |
SEQUENCE_TABLE | SEQUENCE_TABLE表保存了hive对象的下一个可用ID,如’org.apache.hadoop.hive.metastore.model.MTable’, 21,则下一个新创建的hive表其TBL_ID就是21,同时SEQUENCE_TABLE表中271786被更新为26(这里每次都是+5?)。同样,COLUMN,PARTITION等都有相应的记录 |
|
SERDES |
|
|
SERDE_PARAMS |
|
|
SORT_COLS |
|
|
TABLE_PARAMS | 表级属性,如是否外部表,表注释等 | TBL_ID |
TBLS | 所有hive表的基本信息 | TBL_ID,SD_ID |
从上面几张表的内容来看,hive整个创建表的过程已经比较清楚了
- 解析用户提交hive语句,对其进行解析,分解为表、字段、分区等hive对象
- 根据解析到的信息构建对应的表、字段、分区等对象,从SEQUENCE_TABLE中获取构建对象的最新ID,与构建对象信息(名称,类型等)一同通过DAO方法写入到元数据表中去,成功后将SEQUENCE_TABLE中对应的最新ID+5。
实际上我们常见的RDBMS都是通过这种方法进行组织的,典型的如postgresql,其系统表中和hive元数据一样裸露了这些id信息(oid,cid等),而Oracle等商业化的系统则隐藏了这些具体的ID。通过这些元数据我们可以很容易的读到数据诸如创建一个表的数据字典信息,比如导出建表语名等。
导出建表语句的shell脚本见附一 待完成
1.4.2 Mysql
将存放元数据的Derby数据库迁移到Mysql数据库
步骤:
1.5HIVE的数据存储
首先,Hive没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织 Hive中的表,只需要在创建表的时候告诉 Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。
其次,Hive中所有的数据都存储在 HDFS中,Hive中包含以下数据模型:Table,External Table,Partition,Bucket。
- Hive 中的 Table和数据库中的 Table在概念上是类似的,每一个 Table在 Hive中都有一个相应的目录存储数据。例如,一个表xiaojun,它在 HDFS中的路径为:/warehouse /xiaojun,其中,wh是在 hive-site.xml中由 ${hive.metastore.warehouse.dir}指定的数据仓库的目录,所有的 Table数据(不包括 External Table)都保存在这个目录中。
- Partition 对应于数据库中的 Partition列的密集索引,但是 Hive中 Partition的组织方式和数据库中的很不相同。在 Hive中,表中的一个 Partition对应于表下的一个目录,所有的 Partition的数据都存储在对应的目录中。例如:xiaojun表中包含 dt和 city两个 Partition,则对应于 dt = 20100801, ctry = US的 HDFS子目录为:/warehouse /xiaojun/dt=20100801/ctry=US;对应于 dt = 20100801, ctry = CA的 HDFS子目录为;/warehouse /xiaojun/dt=20100801/ctry=CA
- Buckets 对指定列计算 hash,根据 hash 值切分数据,目的是为了并行,每一个 Bucket对应一个文件。将 user列分散至 32个 bucket,首先对 user列的值计算 hash,对应 hash值为 0的 HDFS目录为:/warehouse /xiaojun/dt =20100801/ctry=US/part-00000;hash值为 20的 HDFS目录为:/warehouse /xiaojun/dt =20100801/ctry=US/part-00020
- External Table 指向已经在 HDFS中存在的数据,可以创建 Partition。它和 Table在元数据的组织上是相同的,而实际数据的存储则有较大的差异。
- Table 的创建过程和数据加载过程(这两个过程可以在同一个语句中完成),在加载数据的过程中,实际数据会被移动到数据仓库目录中;之后对数据对访问将会直接在数据仓库目录中完成。删除表时,表中的数据和元数据将会被同时删除。
- External Table 只有一个过程,加载数据和创建表同时完成(CREATE EXTERNAL TABLE ……LOCATION),实际数据是存储在 LOCATION 后面指定的 HDFS路径中,并不会移动到数据仓库目录中。当删除一个 External Table时,仅删除
1.6其它HIVE操作
-
启动HIVE的WEB的界面
sh$HIVE_HOME/bin/hive --service hwi
2、查看HDFS上的文件数据
hadoop fs -text/user/admin/daiqf/createspu_fp/input/cateinfo |head
2. HIVE基本操作
2.1createtable
2.1.1 总述
-
CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXIST选项来忽略这个异常。
-
EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION),Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。
-
LIKE 允许用户复制现有的表结构,但是不复制数据。
-
用户在建表的时候可以自定义 SerDe或者使用自带的 SerDe[王黎2] 。如果没有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED,将会使用自带的 SerDe。在建表的时候,用户还需要为表指定列,用户在指定表的列的同时也会指定自定义的 SerDe,Hive通过 SerDe确定表的具体的列的数据。
-
如果文件数据是纯文本,可以使用 STORED AS TEXTFILE[王黎3] 。如果数据需要压缩,使用STORED AS SEQUENCE [王黎4] 。
-
有分区的表可以在创建的时候使用 PARTITIONED BY 语句。一个表可以拥有一个或者多个分区,每一个分区单独存在一个目录下。而且,表和分区都可以对某个列进行 CLUSTEREDBY 操作,将若干个列放入一个桶(bucket)[王黎5] 中。也可以利用SORT BY 对数据进行排序。这样可以为特定应用提高性能。
-
表名和列名不区分大小写,SerDe 和属性名区分大小写。表和列的注释是字符串。
2.1.2 语法
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[(col_namedata_type [COMMENT col_comment], ...)]
[COMMENTtable_comment]
[PARTITIONED BY(col_name data_type [COMMENT col_comment], ...)]
[CLUSTERED BY(col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTOnum_buckets BUCKETS]
[
[ROW FORMATrow_format] [STORED AS file_format]
| STORED BY'storage.handler.class.name' [ WITH SERDEPROPERTIES (...) ] (Note: only available starting with 0.6.0)
]
[LOCATIONhdfs_path]
[TBLPROPERTIES(property_name=property_value, ...)] (Note: only available startingwith 0.6.0)
[ASselect_statement] (Note: this feature isonly available starting with 0.5.0.)
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
LIKEexisting_table_name
[LOCATIONhdfs_path]
data_type
: primitive_type
| array_type
| map_type
| struct_type
primitive_type
: TINYINT
| SMALLINT
| INT
| BIGINT
| BOOLEAN
| FLOAT
| DOUBLE
| STRING
array_type
: ARRAY <data_type >
map_type
: MAP <primitive_type, data_type >
struct_type
: STRUCT < col_name: data_type [COMMENT col_comment], ...>
row_format
: DELIMITED[FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char]
[MAP KEYSTERMINATED BY char] [LINES TERMINATED BY char]
| SERDEserde_name [WITH SERDEPROPERTIES (property_name=property_value,property_name=property_value, ...)]
file_format:
: SEQUENCEFILE
| TEXTFILE
| RCFILE (Note: only available starting with 0.6.0)
| INPUTFORMATinput_format_classname OUTPUTFORMAT output_format_classname
目前在hive中常用的数据类型有:
BIGINT –主要用于状态,类别,数量的字段,如status/option/type/quantity
DOUBLE –主要用于金额的字段, 如fee/price/bid
STRING –除上述之外的字段基本都使用String, 尤其是id和日期时间这样的字段
2.1.3 基本例子
1、如果一个表已经存在,可以使用if not exists
2、 create table xiaojun(id int,cont string) row format delimitedfields terminated by '