我是靠谱客的博主 失眠蜜粉,最近开发中收集的这篇文章主要介绍Spark缓存策略说明及选择,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

提高RDD的使用效率。

Spark缓存策略示例:


0.NONE(不需要缓存)

参数:_useDisk, _useMemory, _useOffHeap, _deserialized, _replication(默认值为1)

1.DISK_ONLY

参数:_useDisk, _useMemory, _useOffHeap, _deserialized, _replication(默认值为1)

2.DISK_ONLY_2

副本2份

参数:_useDisk, _useMemory, _useOffHeap, _deserialized, _replication(默认值为1)

3.MEMORY_ONLY(默认的)

参数:_useDisk, _useMemory, _useOffHeap, _deserialized, _replication(默认值为1)

4.MEMORY_ONLY_2

参数:_useDisk, _useMemory, _useOffHeap, _deserialized, _replication(默认值为1)

5.MEMORY_ONLY_SER

SER做序列化。会消耗CPU。

参数:_useDisk, _useMemory, _useOffHeap, _deserialized, _replication(默认值为1)

6.MEMORY_ONLY_SER_2

参数:_useDisk, _useMemory, _useOffHeap, _deserialized, _replication(默认值为1)

7.MEMORY_AND_DISK

内存中若放不下,则多出的部分放在机器的本地磁盘上,区别于MEMORY_ONLY(内存中若放不下,则多出的部分原来在哪就还在哪)

参数:_useDisk, _useMemory, _useOffHeap, _deserialized, _replication(默认值为1)

8.MEMORY_AND_DISK_2

参数:_useDisk, _useMemory, _useOffHeap, _deserialized, _replication(默认值为1)

9.MEMORY_AND_DISK_SER

参数:_useDisk, _useMemory, _useOffHeap, _deserialized, _replication(默认值为1)

10.MEMORY_AND_DISK_SER_2

参数:_useDisk, _useMemory, _useOffHeap, _deserialized, _replication(默认值为1)

11.OFF_HEAP(不使用堆,比如可以使用Tachyon)

参数:_useDisk, _useMemory, _useOffHeap, _deserialized, _replication(默认值为1)


如何选择RDD的持久化策略?

1.Cache() MEMEORY_ONLY

2.MEMORY_ONLY_SER

3._2

4.能使用内存就不使用磁盘

最后

以上就是失眠蜜粉为你收集整理的Spark缓存策略说明及选择的全部内容,希望文章能够帮你解决Spark缓存策略说明及选择所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(47)

评论列表共有 0 条评论

立即
投稿
返回
顶部