hive表指定分区字段搜索_Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件...

284 阅读 0 评论 188 点赞

我是靠谱客的博主虚幻小霸王，这篇文章主要介绍hive表指定分区字段搜索_Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件...，现在分享给大家，希望可以做个参考。

首先说一下，这里解决的问题应用场景：

sparksql处理Hive表数据时，判断加载的是否是分区表，以及分区表的字段有哪些？再进一步限制查询分区表必须指定分区？

这里涉及到两种情况：select SQL查询和加载Hive表路径的方式。这里仅就"加载Hive表路径的方式"解析分区表字段，在处理时出现的一些问题及解决作出详细说明。

如果大家有类似的需求，笔者建议通过解析Spark SQL logical plan和下面说的这种方式解决方案结合，封装成一个通用的工具。

问题现象

sparksql加载指定Hive分区表路径，生成的DataSet没有分区字段。

如，

sparkSession.read.format("parquet").load(s"${hive_path}")，hive_path为Hive分区表在HDFS上的存储路径。

hive_path的几种指定方式会导致这种情况的发生(test_partition是一个Hive外部分区表，dt是它的分区字段，分区数据有dt为20200101和20200102):

1. hive_path为"/spark/dw/test.db/test_partition/dt=20200101"

2. hive_path为"/spark/dw/test.db/test_partition/*"

因为牵涉到的源码比较多，这里仅以示例的程序中涉及到的源码中的class、object和方法，绘制成xmind图如下，想细心研究的可以参考该图到spark源码中进行分析。

问题分析

我这里主要给出几个源码段，结合上述xmind图理解：

在没有指定参数basePath的情况下：

1. hive_path为/spark/dw/test.db/test_partition/dt=20200101

sparksql底层处理后得到的basePaths: Set(new Path(“/spark/dw/test.db/test_partition/dt=20200101”))【伪代码】

leafDirs: Seq(new Path(“/spark/dw/test.db/test_partition/dt=20200101”))【伪代码】

2. hive_path为/spark/dw/test.db/test_partition/*

sparksql底层处理后得到的basePaths: Set(new Path(“/spark/dw/test.db/test_partition/dt=20200101”),new Path(“/spark/dw/test.db/test_partition/dt=20200102”))【伪代码】

leafDirs: Seq(new Path(“/spark/dw/test.db/test_partition/dt=20200101”),new Path(“/spark/dw/test.db/test_partition/dt=20200102”))【伪代码】

这两种情况导致源码if(basePaths.contains(currentPath))为true，还没有解析分区就重置变量finished为true跳出循环，因此最终生成的结果也就没有分区字段：

解决方案(亲测有效)

1. 在Spark SQL加载Hive表数据路径时，指定参数basePath，如

sparkSession.read.option("basePath","/spark/dw/test.db/test_partition")

2. 主要重写basePaths方法和parsePartition方法中的处理逻辑，同时需要修改其他涉及的代码。由于涉及需要改写的代码比较多，可以封装成工具

关联文章：

最后

以上就是虚幻小霸王最近收集整理的关于hive表指定分区字段搜索_Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件...的全部内容，更多相关hive表指定分区字段搜索_Spark内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：hive表指定分区字段搜索
浏览次数：284 次浏览
发布日期：2023-10-04 00:50:15

hive表指定分区字段搜索_Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件...

最后

评论列表共有 0 条评论

发表评论取消回复

hive表指定分区字段搜索_Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件...

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复