Spark persist MEMORY_AND_DISK & DISK_ONLY1 Overview2 Summary

96 阅读 0 评论 64 点赞

我是靠谱客的博主端庄大门，最近开发中收集的这篇文章主要介绍Spark persist MEMORY_AND_DISK & DISK_ONLY1 Overview2 Summary，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

文章目录

1 Overview
2 Summary

1 Overview

假设程序中需要对一个接近 3T 的模型文件进行 cache。

3T 的文件: hdfs://xxx:9000/xxx_graph

object Persona {
def main(args: Array[String]): Unit = {
val spark = SparkSession
.builder
.appName("模型 cache 测试")
.getOrCreate()
val actions = spark.sparkContext.textFile(args(0)).persist(StorageLevel.MEMORY_AND_DISK).setName("model")
// 触发 cache，没有实际意义
println(s"number of actions: ${actions.count()}")
// 10 mins
Thread.sleep(1000 * 60 * 10)
}
}

测试思路，3T 的模型，如果要 cache 住，50G 的 Executor，至少需要 3T * 1024G/T / 50G * 2 = 125个左右。（乘以2是因为 Executor 的 JVM 默认大概会用 50% 的 Host 内存）。测试中使用20个。

代码如果使用 StorageLevel.MEMORY_AND_DISK，会有个问题，因为20个 Executor，纯内存肯定是不能 Cache 整个模型的，模型数据会 spill 到磁盘，同时 JVM 会处于经常性的 GC，这样这个操作肯定是非常耗时的。

如下图，560G 基本是可用于 Cache 的内存了，其余时间一直在刷盘。

image_1ddmq5gdrksecn1udb5rpjbnm.png-36.2kb

所有 Executor 一直处于频繁的 GC。

image_1ddmq80bbucq1oee1gj51afj1bf51j.png-158.9kb

Memory 撑爆，CPU 一直繁忙。

image_1ddmqbdlc8mc5km1gg6jpo13rh2d.png-55.3kb

光是一个 Job 引发的 cache 模型，目测至少需要一个小时。

image_1ddmq8sm81kugjbjegtghisv720.png-52kb

以下是调整了 cache 级别，改为 StorageLevel.DISK_ONLY。没有了 GC 消耗。

image_1ddmqmjqf1jf5165m1oa6o445903a.png-144kb

10分钟已经完成30%的 task 了。

image_1ddmr2n9vmmr8qb1h9onhj18hc3n.png-52.3kb

2 Summary

针对大数据集，如果在 Memory 不足够的情况下（TB 级别的基本都很难有匹配的资源），可以让其直接落到磁盘，通过减少 GC Time 来改善程序的 Performance。

最后

以上就是端庄大门为你收集整理的Spark persist MEMORY_AND_DISK & DISK_ONLY1 Overview2 Summary的全部内容，希望文章能够帮你解决Spark persist MEMORY_AND_DISK & DISK_ONLY1 Overview2 Summary所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错，欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(64)

本文分类：Spark
浏览次数：96 次浏览
发布日期：2023-12-07 06:50:35
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_23_o_6_fz_12__23_k5.html

相关文章

为什么Spark比MapReduce快的原因

为什么Spark比MapReduce快的原因

python浮点数多少位_Python中的最大浮点数是多少？

python浮点数多少位_Python中的最大浮点数是多少？

模型持久化如何持久化

spark----基于Python的Spark Streaming+Kafka编程实践说明编程模型代码实践调优总结

spark----基于Python的Spark Streaming+Kafka编程实践说明编程模型代码实践调优总结

Spark persist MEMORY_AND_DISK & DISK_ONLY1 Overview2 Summary

Spark persist MEMORY_AND_DISK & DISK_ONLY1 Overview2 Summary

RDD的缓存

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN Spark Streaming 编程指南概述一个入门示例基础概念 Performance Tuning （性能调优） Fault-tolerance Semantics （容错语义）快速链接

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN Spark Streaming 编程指南概述一个入门示例基础概念 Performance Tuning （性能调优） Fault-tolerance Semantics （容错语义）快速链接

spark 朴素贝叶斯(naive bayes)模型save与load优化

spark 朴素贝叶斯(naive bayes)模型save与load优化

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部