大数据系统-SQL on Hadoop构建OLAP的基石

353 阅读 0 评论 233 点赞

我是靠谱客的博主饱满糖豆，这篇文章主要介绍大数据系统-SQL on Hadoop构建OLAP的基石，现在分享给大家，希望可以做个参考。

SQL on Hadoop是泛指大规模并行SQL分析引擎，针对的是分析性应用。和其他关系型数据库或数据仓库类似，接受SQL，返回结果集。但它具有大规模并行处理很多传统数据库以及其他数据库没有的特性及功能。

系统设计者和用户比较关注其中一些技术点：

是否兼容以往SQL标准，迁移以往工作负载以及平滑过渡甲方历史遗留作业。

能否将SQL转换为优化的分布式执行作业，深挖分布式环境特点，减少网络传输等传统分布式经典问题。

利用分析型数据批量导入，主要为查询负载特点，设计存储格式，如列存储等。

业界逐渐涌现新的查询系统，根据以往经验可以根据架构进行一定的划分：

Spark SQL: http://spark.apache.org/sql/

Hive: https://hive.apache.org/

Impala: http://impala.apache.org/

Kylin: http://kylin.apache.org/cn/

Druid: http://druid.io/

Pinot: https://github.com/linkedin/pinot

每种方案都有各自的优劣，具体需要根据应用场景的工作负载与需求决定选用哪种架构和相应的系统。不建议单纯看个别query的Benchmark结果，体现的问题过于单一，不能代表整体的结果。

友情推荐：ABC技术研习社

为技术人打造的专属A(AI),B(Big Data),C(Cloud)技术公众号和技术交流社群。

以上就是饱满糖豆最近收集整理的关于大数据系统-SQL on Hadoop构建OLAP的基石的全部内容，更多相关大数据系统-SQL内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。