高贵小蜜蜂

文章
7
资源
0
加入时间
2年10月21天

【Hive】常见优化方法

列裁剪select后面跟要选择的列,由于hive中数据采用列式存储,选择需要的字段可加快字段的读取、减少数据量。(节省了读取开销,中间表存储开销和数据整合开销)分区裁剪where条件第一个为分区字段,多值group by如果group by后面有多个字段时,将更多值的字段放在前面,如group by有user_id和sex两个字段,应该是group by user_id、sexorder byorder by时尽量使用limit,尽量避免使用order by。Order by需要扫描数据到单.