概述
SQL on Hadoop是泛指大规模并行SQL分析引擎,针对的是分析性应用。和其他关系型数据库或数据仓库类似,接受SQL,返回结果集。但它具有大规模并行处理很多传统数据库以及其他数据库没有的特性及功能。
系统设计者和用户比较关注其中一些技术点:
- 接口层:
- 查询优化器层:
- 存储层:
利用分析型数据批量导入,主要为查询负载特点,设计存储格式,如列存储等。
业界逐渐涌现新的查询系统,根据以往经验可以根据架构进行一定的划分:
- SQL on MR
Spark SQL: http://spark.apache.org/sql/
Hive: https://hive.apache.org/
- MPP
Impala: http://impala.apache.org/
- SQL on NoSQL
Kylin: http://kylin.apache.org/cn/
- Time Series Partition
Druid: http://druid.io/
Pinot: https://github.com/linkedin/pinot
每种方案都有各自的优劣,具体需要根据应用场景的工作负载与需求决定选用哪种架构和相应的系统。不建议单纯看个别query的Benchmark结果,体现的问题过于单一,不能代表整体的结果。
友情推荐:ABC技术研习社
为技术人打造的专属A(AI),B(Big Data),C(Cloud)技术公众号和技术交流社群。
最后
以上就是饱满糖豆为你收集整理的大数据系统-SQL on Hadoop构建OLAP的基石的全部内容,希望文章能够帮你解决大数据系统-SQL on Hadoop构建OLAP的基石所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复