概述
spark的cacheManager
这张图能知道什么?
Q: spark对RDD的缓存是通过谁去做的?
A: 通过BlockManager去缓存, 并且根据配置选项,决定缓存在文件还是内存中。
driver、executor和BlockManager的关系
从中可以看到
- blockManagerMaster在driver端生成
- executor中生成blockManager,并负责向BMM注册。
- spark中注册消息通过ActorSystem进行发送
blockManager包含什么
- BlockManager的作用?我理解是负责做RDD的存储,如何存下来给后续任务去使用。
- memoryStore和DiskStore,说明把block做存储时,有内存和磁盘2种方式,存储后就都i通过这个Store去管理。
- 存储时以Block为单位,所以会有个映射用的数组
- 有一个负责和Driver的BlockManagerMaster通信的引用接口
- 还有个shuffClient,负责做 备份 和 下载
把块block 存入blockManager的流程
需要注意的一个地方: 当内存不足以放入Block时, 他会先释放一下,再判断是否满足!
从blockManager中删除块
红色方框写错了, 应该是如果只支持磁盘存储,则从DiskStore中调用方法取出block。
shuffClient 下载block操作
BMMAC就是BlockManagerMasterActor,我当初瞎写的简称
- 注意点:当要取的块来自好几个BlockManager时, 把它打乱顺序,避免好几个BM同时从某一个BM上下载数据!
shuffeClinet的备份操作
- BM为什么要备份他的block?这个书里没提!真坑。我的理解是为了防止节点崩溃或者丢失,导致中间任务无法继续执行?
- 因为其他的BlockManager能接收的block可能有限,所以备份时可能会涉及多个block, 每次我们一样,从BMmaster那里拿一个 ***随机***的blockManager做备份,避免都往同一个上备份。
完整笔记图
最后
以上就是清秀爆米花为你收集整理的spark——BlockManager笔记整理和学习的全部内容,希望文章能够帮你解决spark——BlockManager笔记整理和学习所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复