云原生数据库系列谈（贰）：全新Vertica 9.0 核心架构揭秘

354 阅读 0 评论 234 点赞

我是靠谱客的博主结实时光，这篇文章主要介绍云原生数据库系列谈（贰）：全新Vertica 9.0 核心架构揭秘，现在分享给大家，希望可以做个参考。

导语

上回书（云原生数据库系列谈（壹）：节点越多，性能越高？）我们说到，提升MPP数据库性能的关键在于Micro Focus Vertica全新的9.1版本中的Eon模式。从宏观上来说，它是未来大数据&云计算时代中，数据库未来的发展方向；从微观上来说，它让我们基本上远离了曾经让我们苦不堪言的“宕掉”二字。

我相信小伙伴一定跟我一样对这个神奇的Vertica充满了好奇，它到底是何方神圣，能让桀骜不驯的数据们变得瞬间乖巧呢？这，就要先从它的物理设计谈起了。

天才之作——用投影实现有序、分布式存储

Vertica是一个基于无共享分布式开放平台构建的列式存储和计算的关系SQL分析数据库。它支持多种机制，通过良好的物理设计来提高查询性能。

关键词：分布式

Vertica将表数据物理组织成投影（Projection），这些投影将表的部分属性子集有序、分布式存储。

如图所示，每个投影都有一个特定的排序顺序，数据完全按此排序。具有适当排序顺序的投影起到了传统索引的作用。有序的数据通常会取得更好的压缩效果，从而提高 I/O 性能，并有效减少CPU周期开销，提高了系统的处理能力。

表和投影之间的关系：销售表有2个投影：

（1）按date排序、按HASH（sale_id）分段的全列投影，和（2）仅包含（customer, price）属性、按customer排序、按HASH（customer）分段。

关键词：聚合投影

除了普通投影之外，Vertica还支持可选的实时聚合投影（Live Aggregate Projections），如图所示。它可以维护预先计算的部分聚合表达式，但会对基表的更新方式施加限制。

实时聚合可用于显著加快各种聚合，top-K和去重（Distinct）操作的查询性能。实时聚合投影甚至可以通过用户自己提供的基于SDK自定义转换函数（UDTF）来构建。

关键词：扁平表

另外，Vertica支持如图所示的“扁平表”（Flattened Table，宽表）的机制，可在加载时对增量数据使用连接执行任意逆范式化操作。扁平表还提供刷新机制，用于在连接的维度表更改时更新逆范式表中的列。

不“宕”之秘——集群数据分布

Vertica采用分布式存储系统，以便与节点内分区（Partition）区别开来。每个投影会指定分段方式，分段方式确定了元组值与节点的映射关系，从而为实现许多重要的优化提供了基础。例如，Vertica使用分段信息来执行完全本地执行的分布式关联和高效的分布式聚合，这对计算高基数去重聚合尤其有效。

投影可以在集群节点之间复制或分段
分段型投影（Segmented Projection）将每个元组精确地存储在某个特定的节点上
存储元组的节点由投影定义中的分段子句确定
具有高基数和值相对均匀分布的一个或多个列组合就可以用来分段
Vertica会自动创建采用相同分段表达式的第二个“伙伴”投影（"Buddy" projection）以支持容错。当某个节点宕掉时，优化器会从互为副本的适当节点上的伙伴投影中获取缺少的数据

读写双优——集群数据分布

Vertica有读优化存储（Read Optimized Store, ROS）和写入优化存储（Write Optimized Store, WOS）。

“读”优：ROS

ROS中的数据实际存储在标准文件系统中的多个ROS容器中。因为其存储在物理上是分开的，Vertica可以独立检索列数据：所以说Vertica是真正的列式存储。

Vertica写出的实际列数据后面会跟随包含位置索引的页脚，如下图所示：

ROS具有以下特性：