我是靠谱客的博主 忧伤故事,最近开发中收集的这篇文章主要介绍Hive的动态分区,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

关系型数据库(如Oracle)中,对分区表Insert数据时候,数据库自动会根据分区字段的值,将数据插入到相应的分区中,Hive中也提供了类似的机制,即动态分区(Dynamic Partition),只不过,使用Hive的动态分区,需要进行相应的配置。

先看一个应用场景,源表t_lxw1234的数据如下:

 

 
  1.  
  2. SELECT day,url FROM t_lxw1234;
  3. 2015-05-10 url1
  4. 2015-05-10 url2
  5. 2015-06-14 url1
  6. 2015-06-14 url2
  7. 2015-06-15 url1
  8. 2015-06-15 url2
  9. ……
  10.  

 

目标表为:

 
  1.  
  2. CREATE TABLE t_lxw1234_partitioned (
  3. url STRING
  4. ) PARTITIONED BY (month STRING,day STRING)
  5. stored AS textfile;
  6.  

需求:将t_lxw1234中的数据按照时间(day),插入到目标表t_lxw1234_partitioned的相应分区中。

如果按照之前介绍的往指定一个分区中Insert数据,那么这个需求很不容易实现。

这时候就需要使用动态分区来实现,使用动态分区需要注意设定以下参数:

  • hive.exec.dynamic.partition

最后

以上就是忧伤故事为你收集整理的Hive的动态分区的全部内容,希望文章能够帮你解决Hive的动态分区所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(50)

评论列表共有 0 条评论

立即
投稿
返回
顶部