概述
在写 Spark 的应用时,应该尽量避免这两种情况:
1,几个功能明明可以在一个算子操作中完成,为了代码清晰,把这个算子拆分成多个算子进行操作。这种操作往往会增加很多的性能开销。
2,出现公用的 RDD 时候不做持久化操作,比如:
RDD2 是会被复用的 RDD,默认情况下,第一次使用 RDD2 生成 RDD3 时候会走一遍 HDFS -> RDD1 -> RDD2
然后用 RDD2 生成 RDD4 的时候,还会走一遍 HDFS -> RDD1 -> RDD2
这样就造成了重复计算。
针对上述的两种情况我们应该这样做:
1,能够在一个算子中操作完成的功能不用拆分到多个算子中去操作;
2,在要复用 RDD 的时候一定要对复用的那个 RDD 做持久化操作。
最后
以上就是跳跃苗条为你收集整理的Spark 性能优化:重构 RDD 及 RDD 持久化的全部内容,希望文章能够帮你解决Spark 性能优化:重构 RDD 及 RDD 持久化所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复