忐忑月光

文章
4
资源
0
加入时间
2年10月17天

hive 连接查询优化

1.每个join都会启动一个mapreduce如果连接字段是同一个字段,则会进入同一个reduce2.hive会默认最后一个表为数据量最大的表,所以会将前面的表进行缓存所以进行连接查询的时候,将表从小到大连接3.如果查询中不想将大表放到最后,可以使用查询暗示,指定哪张表示最大的select /* +streamtable(c) */ c.id,c.namefr...