我是靠谱客的博主 稳重小蜜蜂,最近开发中收集的这篇文章主要介绍hive中所有的join连接,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

内连接:inner join
–join优化:在进行join的时候,大表放在最后面

–但是使用/+streamtable(大表名称)/来标记大表,那么大表放在什么位置都行了

select /+streamtable(s)/ s.ymd,d.dividend

from stocks s inner join dividends d on s.ymd=d.ymd and s.symbol=d.symbol

where s.symbol=’aapl’

外连接:left outer join,right outer join,full outer join

把外连接(outer join)中where语句中的过滤条件,放在on语句是无效的。不过对于内连接有效。

左半开连接:left semi-join(hive不支持右半开连接)
左半开连接(left semi-join)只会返回左边表的记录,前提是其记录对于右边表满足on语句中的判定条件,相当于sql中的in和exists

select和where语句中都不能引用右边表的字段。

注意点:

semi-join比inner join更高效

hive不支持右半开连接

map端join:map-side join (使用桶的情况下)
map-side join:hive可以在map端执行连接过程(对于在join时有一个是小表的情况)

使用map-side join,需要配置下:

(1)hive0.7版本之前,需要加/*+ mapjoin(表名) *

/select /*+ mapjoin(d) */ s.ymd,d.dividend from stocks s join dividends d

on s.ymd=d.ymd and s.symbol=d.symbol

where s.symbol=’AAPL

(2)hive0.7版本开始,设置hive.auto.convert.join=true

hive.auto.convert.join=true

hive.mapjoin.smalltable.filsize=25000000 --使用这个优化的小表的大小(单位:字节)

–注意:右外连接和全外连接不支持这个优化

备注:

(1). hive的join语句,只支持等值连接。

(2).注:pig提供的交叉生成功能支持“非等值连接”.

(3).hive目前不支持在join的on子句中使用or。

最后

以上就是稳重小蜜蜂为你收集整理的hive中所有的join连接的全部内容,希望文章能够帮你解决hive中所有的join连接所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(53)

评论列表共有 0 条评论

立即
投稿
返回
顶部