我是靠谱客的博主 清秀荔枝,最近开发中收集的这篇文章主要介绍计算MapReduce过程中需要的缓冲区大小,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

在Map阶段,map函数会产生中间数据输出并保存在内存缓冲区中(缓冲区大小由io.sort.mb参数指定)。一旦达到占用阈值(默认是80%),缓冲区的内容就会写入本地磁盘,这也就是所谓的溢写(spill)。

缓冲区内会存储溢写记录的元数据(每条数据元数据长度为16字节)和溢写记录。

分配给元数据的空间由参数io.sort.record.percent指定,默认5%,其余分配给溢写记录使用。

 

要确定缓冲区所需的内存空间,需要计算溢写记录和元数据分别所占空间大小。

具体计算方法如下:

  • Record length = Map output bytes / Map output records = 68022178 / 472293 = 144bytes
  • Spilled Records Size =  Spilled Records * Record length = 144 * 472293 = 68022178 = 64M
  • Metadata Size = Metadata length * Spilled Records = 16 * 472293 = 7556688 = 7M

io.sort.record.percent = 16 / (16 + 144) = 0.1

io.sort.mb = Metadata size + Spilled Records size = 64 + 7 = 71M

转载于:https://my.oschina.net/snowpipe/blog/748940

最后

以上就是清秀荔枝为你收集整理的计算MapReduce过程中需要的缓冲区大小的全部内容,希望文章能够帮你解决计算MapReduce过程中需要的缓冲区大小所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(56)

评论列表共有 0 条评论

立即
投稿
返回
顶部