我是靠谱客的博主 清秀爆米花,最近开发中收集的这篇文章主要介绍spark——BlockManager笔记整理和学习,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

spark的cacheManager

在这里插入图片描述
这张图能知道什么?
Q: spark对RDD的缓存是通过谁去做的?
A: 通过BlockManager去缓存, 并且根据配置选项,决定缓存在文件还是内存中。


driver、executor和BlockManager的关系

在这里插入图片描述
从中可以看到

  1. blockManagerMaster在driver端生成
  2. executor中生成blockManager,并负责向BMM注册。
  3. spark中注册消息通过ActorSystem进行发送

blockManager包含什么

在这里插入图片描述

  • BlockManager的作用?我理解是负责做RDD的存储,如何存下来给后续任务去使用。
  • memoryStore和DiskStore,说明把block做存储时,有内存和磁盘2种方式,存储后就都i通过这个Store去管理。
  • 存储时以Block为单位,所以会有个映射用的数组
  • 有一个负责和Driver的BlockManagerMaster通信的引用接口
  • 还有个shuffClient,负责做 备份下载

把块block 存入blockManager的流程

在这里插入图片描述
需要注意的一个地方: 当内存不足以放入Block时, 他会先释放一下,再判断是否满足!

从blockManager中删除块

在这里插入图片描述
红色方框写错了, 应该是如果只支持磁盘存储,则从DiskStore中调用方法取出block。

shuffClient 下载block操作

在这里插入图片描述
BMMAC就是BlockManagerMasterActor,我当初瞎写的简称

  • 注意点:当要取的块来自好几个BlockManager时, 把它打乱顺序,避免好几个BM同时从某一个BM上下载数据!

shuffeClinet的备份操作

在这里插入图片描述

  • BM为什么要备份他的block?这个书里没提!真坑。我的理解是为了防止节点崩溃或者丢失,导致中间任务无法继续执行?
  • 因为其他的BlockManager能接收的block可能有限,所以备份时可能会涉及多个block, 每次我们一样,从BMmaster那里拿一个 ***随机***的blockManager做备份,避免都往同一个上备份。

完整笔记图

在这里插入图片描述

最后

以上就是清秀爆米花为你收集整理的spark——BlockManager笔记整理和学习的全部内容,希望文章能够帮你解决spark——BlockManager笔记整理和学习所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(75)

评论列表共有 0 条评论

立即
投稿
返回
顶部