Spark中直接操作HDFS

292 阅读 0 评论 193 点赞

我是靠谱客的博主俊逸鞋垫，这篇文章主要介绍Spark中直接操作HDFS，现在分享给大家，希望可以做个参考。

Spark作为一个基于内存的大数据计算框架，可以和hadoop生态的资源调度器和分布式文件存储系统无缝融合。Spark可以直接操作存储在HDFS上面的数据：

通过Hadoop方式操作已经存在的文件目录

val path = new

org.apache.hadoop.fs.Path("hdfs://xxx"); val hdfs = org.apache.hadoop.fs.FileSystem.get( new java.net.URI("hdfs://x", new org.apache.hadoop.conf.Configuration()) ); if(hdfs.exists(path) hdfs.delete(path,false))

通过spark自带的hadoopconf方式操作已经存在文件目录　

val hadoopConf = sparkContext.hadoopConfiguration
val hdfs = org.apache.hadoop.fs.FileSystem.get(hadoopConf)
if(hdfs.exists(path)){
//为防止误删，禁止递归删除
hdfs.delete(path,false)
}

　　

　

转载于:https://www.cnblogs.com/maxigang/p/10033159.html

最后

以上就是俊逸鞋垫最近收集整理的关于Spark中直接操作HDFS的全部内容，更多相关Spark中直接操作HDFS内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(193)

本文分类：大数据
浏览次数：292 次浏览
发布日期：2023-09-30 04:45:53

相关文章

Flink 在IDEA执行时的webui

Flink 在IDEA执行时的webui

spark ui的访问地址_如何访问Spark Web UI？

spark ui的访问地址_如何访问Spark Web UI？

【Flink】本地访问webUI

【Flink】本地访问webUI

spark中操作hdfs

Spark中直接操作HDFS

flink配置webui上传jar包保存路径

flink配置webui上传jar包保存路径

Spark操作hdfs

打印（获取）HDFS路径下所有的文件名（包括子目录下的）

打印（获取）HDFS路径下所有的文件名（包括子目录下的）

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部