我是靠谱客的博主 疯狂皮带,最近开发中收集的这篇文章主要介绍Clickhouse_6_原理解析 - MergeTree一、创建方式/存储结构二、数据分区三、一级索引四、二级索引五、数据存储六、数据标记七、总结,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

生生不息,“折腾”不止;Java晋升指北,让天下没有难学的技术;视频教程资源共享,学习不难,坚持不难,坚持学习很难; >>>>


在这里插入图片描述

表引擎决定了一张数据表最终的性格,比如,数据表拥有何种特性、数据以何种形式被存储以及如何被加载


ClickHouse拥有非常庞大的表引擎体系,其中 MergeTree 表引擎及其家族系列最为强>大,在生产环境下,大部分情况,都会使用该系列表引擎

  1. 支持主键索引
  2. 数据分区
  3. 数据副本
  4. 数据采用
  5. 支持 Alter 操作

在这里插入图片描述

一、创建方式/存储结构

MergeTree 写入一批数据时,数据总会以数据片段的形式写入磁盘;


ClickHouse会通过后台线程,定期合并这些数据,属于相同分区的数据会被合并成一个新的片段

1.1 创建方式

CREATE TABLE [IF NOT EXISTS] [db_name.]table_name (
    name1 [type] [DEFAULT|MATERIALIZED|ALIAS expr],
    name2 [type] [DEFAULT|MATERIALIZED|ALIAS expr],
    省略...
) ENGINE = MergeTree()
[PARTITION BY 分区键]
[ORDER BY 排序]
[PRIMARY KEY 主键]
[SAMPLE BY 抽样表达式]
[SETTINGS name=value, 属性设置...]

Partition by

  • 分区键
  • 用于指定数据以何种标准进行分区
  • 即可以是单个字段,也可以是多个字段
  • 如果不声明分区,则Clickhouse会生成一个名为all的分区

Order by

  • 排序
  • 声明以何种标准排序
  • 默认情况下,以主键 primary key

Primary Key

  • 主键
  • 声明后会依照主键字段,生成一级索引,用于加速查询
  • 主键与排序键 order by 相同,所以通常会直接使用 order by代为主键

Sample by

  • 抽样表达式
  • 声明以何种标准进行采样

Setting

  • 参数设置
  • index_granularity:索引粒度,默认值是 8192
    – 在默认情况下,每间隔8192行数据才会生成一条索引
  • index_granularity_bytes:自适应间隔大小
    – 根据每一批写入数据量的大小,动态划分间隔大小;
  • enable_mixed_granularity_parts:
    – 设置是否开启自适应索引间隔的功能,默认开启

1.1 存储结构

表引擎的数据是拥有物理存储的,数据会按照分区目录的形式保存在磁盘之上

先通过稀疏索引 primary.idx 找到对应的数据的偏移量 column.mrk ,再通过偏移量找到 >.bin 数据

  • primary.idx
  • column.mrk
  • [column].bin

在这里插入图片描述
在这里插入图片描述

一张数据表的物理结构分为3个层级

  1. 数据表目录
  2. 分区目录
  3. 各分区下的具体文件

在这里插入图片描述

checksums.txt

  • 校验文件
  • 二进制格式存储
  • 保存了余下各类文件 primary.idx、count.txt 等的 size大小和size的哈希值
  • 用于快速校验文件的完整性和正确性

在这里插入图片描述

count.txt

  • 计数文件
  • 明文格式存储
  • 记录当前数据分区目录下数据的总行数

primary.idx

  • 一级索引文件
  • 二进制格式存储
  • 存放稀疏索引
  • 一张 mergeTree 表只能声明一次一级索引

partition.dat、mimmax_[cloumn].idx

  • 如果使用了分区键,就会额外生成 partition.dat、minmax 索引文件
  • 二进制格式存储
  • partition.dat
    • 用于保存当前分区下分区表达式最终生成的值
  • Minmax
    • 记录当前分区下分区字段对应原始数据的最小值、最大值

[column].bin、[column].mrk

  • column.bin
    • 文件数据
    • 压缩格式存储,默认LZ4压缩格式
    • 每一个字段,都有对应的 .bin 文件
  • column.mrk
    • 列字段标记文件
    • 二进制格式存储
    • 标记文件中保存了 .bin 文件中数据的偏移量信息
    • 标记文件 & 稀疏索引对齐,又与 .bin 文件一一对应,所以 mergeTree 通过标记文件建立了 primary.idx 稀疏索引与 .bin 数据文件之间的映射关系
    • 先通过稀疏索引 primary.idx 找到对应的数据的偏移量 column.mrk ,再通过偏移量找到 .bin 数据

二、数据分区

数据是以分区目录的形式进行组织的,每个分区独立分开存储;

2.1 分区规则

数据分区的规则由分区ID决定,而具体到每个数据分区所对应的ID,则由分区键的取值决定;

针对取值数据类型的不同,分区ID的生成逻辑目前拥有四种规则

  1. 不指定分区键
    1. 如果不使用分区键,则分区ID默认取名为all
    2. 所有数据都会被写入这个all分区
  2. 整型分区键
    1. 如果分区键是整型,且无法转换成YYYYMMDD格式,则直接按照整型的字符形式输出;
  3. 日期分区键
    1. 如果分区键属于日期类型
    2. 或者能够转换成YYYYMMDD格式
    3. 则按照YYYYMMDD进行格式化后的字符形式输出
  4. 其它类型分区键
    1. 如果分区键不属于整型,也不属于日期类型
    2. 通过128位hash值作为分区ID的取值

在这里插入图片描述

2.2 命名规则

MergeeTree,最核心的特点就是分区目录的合并;


那么,201905_1_1_0这串数字是什么意思呢?

在这里插入图片描述

在这里插入图片描述

  1. partitionId
    1. 分区ID
  2. MinBlockNum
    1. 最小数据块编号
    2. 全局唯一,从1开始
    3. 最小取小
  3. MaxBlockNum
    1. 最大数据块编号
    2. 最大取大
  4. Level
    1. 合并的层级(次数)
    2. 非全局唯一,每创建一个分区,初始值为0
    3. 如果相同分区发生合并动作,则在相应分区内计数+1

2.3 合并过程

在这里插入图片描述

MergeTree的分区目录并不是在数据表创建就存在的,而是在数据写入过程中被创建的

每次Insert语句,MergeTree都会生成一批新的分区目录,即便不同批次写入的数据属于相同分区,也会生成新的分区目录;

对于同一个分区而言,也会存在多个分区的情况,在写入数据后10~15min,也可以手动执行optimize查询语句后,Clickhouse会通过后台任务将属于相同分区的多个分区目录进行合并;

已经存在的旧分区目录,也不会立刻删除,而是先置于active=0非激活状态,在某个时刻(默认8min)通过后台任务将其删除;

三、一级索引

MergeeTree的主键使用primary key定义,待主键定义之后,MergeTree会依据 index_granularity 间隔,为数据表生成一级索引并保存到 primary.idex 文件内,索引数据按照primary key排序;

primary.idx 文件内的一级索引采用 稀疏索引实现;

create table partition_v1 (ID String,URL String,EventTime Date) Engine=MergeTree() partition by toYYYYMM(EventTime) order by ID
iZwz9cs3943soqusmlnb7tZ :) select * from partition_v1

SELECT *
FROM partition_v1

┌─ID────┬─URL─────────┬──EventTime─┐
│ A1002 │ WWW.123.COM │ 2021-08-03 │
└───────┴─────────────┴────────────┘

1 rows in set. Elapsed: 0.002 sec. 

iZwz9cs3943soqusmlnb7tZ :) 
[root@iZwz9cs3943soqusmlnb7tZ 202108_5_5_0]# pwd
/var/lib/clickhouse/data/default/partition_v1/202108_5_5_0
[root@iZwz9cs3943soqusmlnb7tZ 202108_5_5_0]# ls -l
总用量 48
-rw-r----- 1 clickhouse clickhouse 389 8月   3 23:26 checksums.txt
-rw-r----- 1 clickhouse clickhouse  79 8月   3 23:26 columns.txt
-rw-r----- 1 clickhouse clickhouse   1 8月   3 23:26 count.txt
-rw-r----- 1 clickhouse clickhouse  28 8月   3 23:26 EventTime.bin
-rw-r----- 1 clickhouse clickhouse  48 8月   3 23:26 EventTime.mrk2
-rw-r----- 1 clickhouse clickhouse  32 8月   3 23:26 ID.bin
-rw-r----- 1 clickhouse clickhouse  48 8月   3 23:26 ID.mrk2
-rw-r----- 1 clickhouse clickhouse   4 8月   3 23:26 minmax_EventTime.idx
-rw-r----- 1 clickhouse clickhouse   4 8月   3 23:26 partition.dat
-rw-r----- 1 clickhouse clickhouse  12 8月   3 23:26 primary.idx
-rw-r----- 1 clickhouse clickhouse  38 8月   3 23:26 URL.bin
-rw-r----- 1 clickhouse clickhouse  48 8月   3 23:26 URL.mrk2
[root@iZwz9cs3943soqusmlnb7tZ 202108_5_5_0]# cat primary.idx 
A1002A1002

3.1 索引粒度

索引粒度如同标尺一般,会丈量整个数据的长度,并按照刻度对数据进行标注,最终将数据标记成多个 间隔的小段;

MergeeTree使用 MarkRange表示一个具体的区间,并通过start和end表示具体的范围。

index_granularity不但只作用于一级索引,同时也会影响数据标记he数据文件,因为仅有一级索引自身是无法完成查询工作的,它需要借助数据标记才能定位数据,所以一级索引和数据标记的间隔粒度相同;

在这里插入图片描述

3.2 索引过程

  1. MarkRange在Clickhouse是用于定义标记区间的对象
  2. MarkRange按照index_granularity,将一段完整的数据划分为多个小的间隔数据段,一个具体的数据段即是MarkRange
  3. MarkRange与索引编号对应,使用start和end两个属性表示区间范围;
  • 现在有一份测试数据,A000 - A192,共192行记录
  • 主键ID String类型
  • MergeeTree的索引粒度是 index_granularity=3

在这里插入图片描述

在这里插入图片描述

索引查询其实就是两个数值区间的交集

  1. 生成查询条件区间(条件转换)
    1. Where ID=“A0003”
      1. [“A0003”,“A0003”]
    2. Where ID>“A0003”
      1. (“A0003”,+inf)
    3. Where ID<“A0003”
      1. (-inf,“A0003”)
  2. 递归交集判断
    1. 递归形式
    2. 剪枝算法
  3. 合并MarkRange区间

在这里插入图片描述

四、二级索引

  1. 二级索引又称为跳数索引
  2. 默认情况下,跳数索引是关闭的,需要设置 allow_experimental_data_skipping_indices
  3. 跳数索引,会额外创建 skip_idx_[Cloumn].idx 与 skp_idx_[Cloumn].mrk
# 需要在 create 语句定义
INDEX index_name expr TYPE index_type(...) GRANULARITY granularity

CREATE TABLE skip_test (
    ID String,
    URL String,
    Code String,
    EventTime Date,
    INDEX a ID TYPE minmax GRANULARITY 5,
    INDEX b(length(ID) * 8TYPE set(2) GRANULARITY 5,
    INDEX c(ID,Code) TYPE ngrambf_v1(3, 256, 2, 0) GRANULARITY 5,
    INDEX d ID TYPE tokenbf_v1(256, 2, 0) GRANULARITY 5
) ENGINE = MergeTree()

不同的跳数索引之间,还拥有granularity共同参数

  • 定义了聚合信息汇总的粒度:一行跳数索引能够跳过多少个 index_granularity 区间的数据
  • MergeeTree支持4种跳数索引
    • minmax
    • set
    • ngrambf_v1
    • tokenbf_v1

minmax

INDEX a ID TYPE minmax GRANULARITY 5

  • minmax 记录了一段数据内的最小值,最大值;
  • 其索引的作用类似区分目录,能够快速跳过无用的数据区间

set

INDEX b(length(ID) * 8) TYPE set(2) GRANULARITY 5

  • 记录 数据中ID的长度 * 8 后取值
  • 最多记录 8192 / 2 条

  • 记录了声明字段或表达式的取值(唯一值,无重复),其完整形式 set(max_rows)
  • max_rows 是一个阈值,表示在一个 index_granularity 内,索引最多记录的数据行数;
  • max_rows=0,表示无限制

ngrambf_v1

INDEX c(ID,Code) TYPE ngrambf_v1(3, 256, 2, 0) GRANULARITY 5

  • 记录的数据短语的布隆过滤器
  • 只支持 string、fixedString 数据类型
  • 只能提升in、notIn、like、equals、notEquals查询性能
  • ngrambf_v1(n,size_of_bloom_filter_in_bytes,number_of_hash_functions,random_seed
  • n:token长度,依据n的长度将数据切割为token短语
  • size_of_bloom_filter_in_bytes:布隆过滤器的大小
  • number_of_hash_functions:布隆过滤器中使用hash函数的个数
  • random_seed:Hash函数的随机种子

tonkenbf_v1

INDEX d ID TYPE tokenbf_v1(256, 2, 0)</u< GRANULARITY 5

  • 是 ngrambf_v1 的变种,同样是一种布隆过滤器索引
  • 短语token的处理方式不同,其它的均一样

五、数据存储

在MergeeTree中,数据按列存储,数据是独立存储的,每列字段都用 .bin 数据文件,也正是这些 .bin 文件,承载着数据的物理存储,数据文件以分区目录的形式被存放;

MergeeTree并不是一股脑将数据直接写入.bin文件,而是经过压缩

  • LZ4
  • ZSTD
  • Multiple
  • Delta

数据会按照order by的声明排序

在这里插入图片描述

在这里插入图片描述

压缩数据块 = 头信息 + 压缩数据


头信息:

  • 固定使用9位字节
  • 1个UInt8整型(1字节)+ 2UInt32(4字节)整型
    • 压缩算法类型 + 压缩后的数据大小 & 压缩前的数据大小

压缩数据:

  • 每个压缩数据块的体积,都被严格控制在 64kb ~ 1MB 之间
    • size<64kb:如果单个批次数据小于64kb,则继续获取下一批数据,直到累积到>size>=64KB
    • size>1mb:按照1mb大小进行截断,并生成下一个压缩数据块
# 通过 compressor 能够查询某个.bin文件中压缩数据的统计信息
[root@iZwz9cs3943soqusmlnb7tZ 202108_5_6_1]# clickhouse-compressor --stat < URL.bin 
24      32

.bin数据压缩

  1. 数据压缩有效减少了数据大小,降低了存储空间,并加速了数据传输速度
  2. 数据压缩、解压操作,会带来性能损耗

六、数据标记

在这里插入图片描述

为了能够与数据衔接,数据标记文件 & .bin 一一对应

在这里插入图片描述

一行标记数据使用一个元组表示

  • 表示在此段数据区间中,在对应.bin压缩文件中,压缩数据块的起始偏移量
  • 该数据压缩块解压后,其未压缩数据块的起始偏移量

标记数据与一级索引数据不同,并不能常驻内存,而是使用LRU缓存策略

6.1 查询过程

  1. 读取压缩块
  2. 读取数据

在这里插入图片描述

七、总结

分区 – 索引 – 标记 – 压缩

  • 写入过程
  • 查询过程
  • 数据标记
  • 压缩数据块

在这里插入图片描述

写入过程

  1. 数据写入的第一步,就是生成分区目录
    1. 每写入一批数据,都会生成一个新的分区目录
    2. 在某一个时刻,属于相同分区的目录会依照规则合并在一起(8min)
  2. 按照index_granularity索引粒度,生成primary.idx一级索引
    1. 如果声明二级索引,还会生成二级索引

在这里插入图片描述

查询过程

  1. 分区索引
  2. 一级索引
  3. 二级索引
  4. 数据标记
    1. 数据解压
    2. 计算数据范围

如果没有指定 where,或者指定 where 没有索引,则进行全表扫描(多线程形式)

最后

以上就是疯狂皮带为你收集整理的Clickhouse_6_原理解析 - MergeTree一、创建方式/存储结构二、数据分区三、一级索引四、二级索引五、数据存储六、数据标记七、总结的全部内容,希望文章能够帮你解决Clickhouse_6_原理解析 - MergeTree一、创建方式/存储结构二、数据分区三、一级索引四、二级索引五、数据存储六、数据标记七、总结所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(57)

评论列表共有 0 条评论

立即
投稿
返回
顶部