Hadoop计算框架特性

265 阅读 0 评论 175 点赞

我是靠谱客的博主殷勤花瓣，这篇文章主要介绍Hadoop计算框架特性，现在分享给大家，希望可以做个参考。

1.数据量大不是问题，数据倾斜是个问题。
2.jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，耗时很长。原因是map reduce作业初始化的时间是比较长的。
3.sum,count,max,min等UDAF，不怕数据倾斜问题,hadoop在map端的汇总合并优化，使数据倾斜不成问题。
4.count(distinct ),在数据量大的情况下，效率较低，如果是多count(distinct )效率更低，因为count(distinct)是按group by 字段分组，按distinct字段排序，一般这种分布方式是很倾斜的，比如男uv,女uv，淘宝一天30亿的pv，如果按性别分组，分配2个reduce,每个reduce处理15亿数据。

转载于:https://my.oschina.net/u/4085644/blog/3020193