Spark 性能优化：重构 RDD 及 RDD 持久化

269 阅读 0 评论 178 点赞

我是靠谱客的博主跳跃苗条，这篇文章主要介绍Spark 性能优化：重构 RDD 及 RDD 持久化，现在分享给大家，希望可以做个参考。

在写 Spark 的应用时，应该尽量避免这两种情况：

1，几个功能明明可以在一个算子操作中完成，为了代码清晰，把这个算子拆分成多个算子进行操作。这种操作往往会增加很多的性能开销。

2，出现公用的 RDD 时候不做持久化操作，比如：

RDD2 是会被复用的 RDD，默认情况下，第一次使用 RDD2 生成 RDD3 时候会走一遍 HDFS -> RDD1 -> RDD2

然后用 RDD2 生成 RDD4 的时候，还会走一遍 HDFS -> RDD1 -> RDD2

这样就造成了重复计算。

针对上述的两种情况我们应该这样做：

1，能够在一个算子中操作完成的功能不用拆分到多个算子中去操作；

2，在要复用 RDD 的时候一定要对复用的那个 RDD 做持久化操作。

最后

以上就是跳跃苗条最近收集整理的关于Spark 性能优化：重构 RDD 及 RDD 持久化的全部内容，更多相关Spark内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(178)

本文分类：大数据
浏览次数：269 次浏览
发布日期：2023-12-07 07:35:18

相关文章

Spark性能优化总结

Spark性能优化（5）—— 使用序列化的持久化级别1 使用序列化的持久化级别

Spark性能优化（5）—— 使用序列化的持久化级别1 使用序列化的持久化级别

Spark特征提取---TF-IDF

Spark特征提取---TF-IDF

spark进行svd降维和kmeans聚类

spark进行svd降维和kmeans聚类

Spark 性能优化：重构 RDD 及 RDD 持久化

Spark 性能优化：重构 RDD 及 RDD 持久化

Spark 学习笔记 TF-IDFspark 计算TF-IDF的多种方法

Spark 学习笔记 TF-IDFspark 计算TF-IDF的多种方法

Spark性能调优之——在实际项目中重构RDD架构以及RDD持久化

Spark性能调优之——在实际项目中重构RDD架构以及RDD持久化

TF-IDF + K-Means 中文聚类例子 - scalaDemo仅供参考

TF-IDF + K-Means 中文聚类例子 - scalaDemo仅供参考

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部