我是靠谱客的博主 明理灯泡,最近开发中收集的这篇文章主要介绍MapReduce-做jion操作时出现数据倾斜时的处理方案,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

MR框架的话,我们可以利用DistributedCache(Hadoop内置的分布式缓存机制)来实现。

 

DistributedCache 是一个提供给Map/Reduce框架的工具,用来缓存指定的文件。当我们使用了这个机制后,MR框架底层会将指定的文件拷贝到slave节点上的缓存中。

 

使用DistributedCache机制,尤其在做join操作时,可以大大的提高作业的运行效率,并且可以额避免产生数据倾斜。实现思路是:

将Join操作中的小表进行缓存,这样每个Map Task在执行时,都是可以在Map Task运行所在的节点的缓冲区拿到小表数据,从而在Map阶段就可以完成Join操作。这样一来,就不需要引入Reducer组件,也就不会产生数据倾斜的问题。

最后

以上就是明理灯泡为你收集整理的MapReduce-做jion操作时出现数据倾斜时的处理方案的全部内容,希望文章能够帮你解决MapReduce-做jion操作时出现数据倾斜时的处理方案所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(83)

评论列表共有 0 条评论

立即
投稿
返回
顶部