我是靠谱客的博主 怕孤单铅笔,最近开发中收集的这篇文章主要介绍Spark如何删除无效rdd checkpoint,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

spark可以使用checkpoint来作为检查点,将rdd的数据写入hdfs文件,也可以利用本地缓存子系统。
当我们使用checkpoint将rdd保存到hdfs文件时,如果任务的临时文件长时间不删除,长此以往,hdfs会出现很多没有用的文件,spark也考虑到了这一点,因此,用了一些取巧的方式来解决这种问题。

spark config:

spark.cleaner.referenceTracking.cleanCheckpoints = 默认false

也就是说默认情况下,保存的文件一直都会放在dfs中,除非人工删除
下述内容均建立在值为true的情况下

设置检查点路径

spark.sparkContext().setCheckpointDir("hdfs://nameservice1/xx/xx");

存放到hdfs文件系统的好处是自带高容错性、可用性。
那么,所有运行的任务都写这个路径会不会出现覆盖的情况呢?答案是不会

  /**
   * Set the directory under which RDDs are going to be checkpointed.
   * @param directory path to the directory where checkpoint files will be stored
   * (must be HDFS path if running in cluster)
   */
  def setCheckpointDir(directory: String) {

    // If we 

最后

以上就是怕孤单铅笔为你收集整理的Spark如何删除无效rdd checkpoint的全部内容,希望文章能够帮你解决Spark如何删除无效rdd checkpoint所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(55)

评论列表共有 0 条评论

立即
投稿
返回
顶部