概述
关系型数据库(如Oracle)中,对分区表Insert数据时候,数据库自动会根据分区字段的值,将数据插入到相应的分区中,Hive中也提供了类似的机制,即动态分区(Dynamic Partition),只不过,使用Hive的动态分区,需要进行相应的配置。
先看一个应用场景,源表t_lxw1234的数据如下:
- SELECT day,url FROM t_lxw1234;
- 2015-05-10 url1
- 2015-05-10 url2
- 2015-06-14 url1
- 2015-06-14 url2
- 2015-06-15 url1
- 2015-06-15 url2
- ……
目标表为:
- CREATE TABLE t_lxw1234_partitioned (
- url STRING
- ) PARTITIONED BY (month STRING,day STRING)
- stored AS textfile;
需求:将t_lxw1234中的数据按照时间(day),插入到目标表t_lxw1234_partitioned的相应分区中。
如果按照之前介绍的往指定一个分区中Insert数据,那么这个需求很不容易实现。
这时候就需要使用动态分区来实现,使用动态分区需要注意设定以下参数:
- hive.exec.dynamic.partition
最后
以上就是忧伤故事为你收集整理的Hive的动态分区的全部内容,希望文章能够帮你解决Hive的动态分区所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复