寒冷学姐

文章
6
资源
2
加入时间
2年10月17天

spark在hdfs上自动寻找指定后缀的文件(使用层序遍历)———附带详细思路和代码0 背景1 代码原理2 代码

文章目录0 背景1 代码原理1.1 基本准备1.2 遍历文件目录2 代码0 背景由于每次读取hudi文件时,都需要加上/*/*等相对路径,这就需要每次都使用Hadoop指令去查询parquet所在的层数,十分繁琐,于是编写了自动寻找.parquet的文件以添加/*。注意⚠️:此方法分只是用于读取目录下全部分区数据,如果需要读取某个分区的文件,还是需要使用/*方法。1 代码原理1.1 基本准备因为pyspark功能实现的底层实现使用的是scala,而scala底层实现的是java,所以pyspar