odps(hive)上进行join操作的三种方式
最近项目上用到了阿里云大数据平台的数据仓库,很多离线计算和挖掘工作都是基于odps来实现,这其中必不可少的工作就是表与表之间的join碰撞。 由于一开始集群资源比较充裕,一个sql任务不会运行的太久,所以没有对join做单独的关注和优化,最近由于资源紧张并且涉及到大表join,发现性能下降到令人发指的程度(千万级别的表a与百亿级别的表b进行最简单的join操作耗时5个小时以上),另外