概述
生生不息,“折腾”不止;Java晋升指北,让天下没有难学的技术;视频教程资源共享,学习不难,坚持不难,坚持学习很难; >>>>
表引擎决定了一张数据表最终的性格,比如,数据表拥有何种特性、数据以何种形式被存储以及如何被加载;
ClickHouse拥有非常庞大的表引擎体系,其中 MergeTree 表引擎及其家族系列最为强>大,在生产环境下,大部分情况,都会使用该系列表引擎
- 支持主键索引
- 数据分区
- 数据副本
- 数据采用
- 支持 Alter 操作
一、创建方式/存储结构
MergeTree 写入一批数据时,数据总会以数据片段的形式写入磁盘;
ClickHouse会通过后台线程,定期合并这些数据,属于相同分区的数据会被合并成一个新的片段;
1.1 创建方式
CREATE TABLE [IF NOT EXISTS] [db_name.]table_name (
name1 [type] [DEFAULT|MATERIALIZED|ALIAS expr],
name2 [type] [DEFAULT|MATERIALIZED|ALIAS expr],
省略...
) ENGINE = MergeTree()
[PARTITION BY 分区键]
[ORDER BY 排序]
[PRIMARY KEY 主键]
[SAMPLE BY 抽样表达式]
[SETTINGS name=value, 属性设置...]
Partition by
- 分区键
- 用于指定数据以何种标准进行分区
- 即可以是单个字段,也可以是多个字段
- 如果不声明分区,则Clickhouse会生成一个名为all的分区
Order by
- 排序
- 声明以何种标准排序
- 默认情况下,以主键 primary key
Primary Key
- 主键
- 声明后会依照主键字段,生成一级索引,用于加速查询
- 主键与排序键 order by 相同,所以通常会直接使用 order by代为主键
Sample by
- 抽样表达式
- 声明以何种标准进行采样
Setting
- 参数设置
- index_granularity:索引粒度,默认值是 8192
– 在默认情况下,每间隔8192行数据才会生成一条索引- index_granularity_bytes:自适应间隔大小
– 根据每一批写入数据量的大小,动态划分间隔大小;- enable_mixed_granularity_parts:
– 设置是否开启自适应索引间隔的功能,默认开启
1.1 存储结构
表引擎的数据是拥有物理存储的,数据会按照分区目录的形式保存在磁盘之上
先通过稀疏索引 primary.idx 找到对应的数据的偏移量 column.mrk ,再通过偏移量找到 >.bin 数据
- primary.idx
- column.mrk
- [column].bin
一张数据表的物理结构分为3个层级
- 数据表目录
- 分区目录
- 各分区下的具体文件
checksums.txt
- 校验文件
- 二进制格式存储
- 保存了余下各类文件 primary.idx、count.txt 等的 size大小和size的哈希值
- 用于快速校验文件的完整性和正确性
count.txt
- 计数文件
- 明文格式存储
- 记录当前数据分区目录下数据的总行数
primary.idx
- 一级索引文件
- 二进制格式存储
- 存放稀疏索引
- 一张 mergeTree 表只能声明一次一级索引
partition.dat、mimmax_[cloumn].idx
- 如果使用了分区键,就会额外生成 partition.dat、minmax 索引文件
- 二进制格式存储
- partition.dat
- 用于保存当前分区下分区表达式最终生成的值
- Minmax
- 记录当前分区下分区字段对应原始数据的最小值、最大值
[column].bin、[column].mrk
- column.bin
- 文件数据
- 压缩格式存储,默认LZ4压缩格式
- 每一个字段,都有对应的 .bin 文件
- column.mrk
- 列字段标记文件
- 二进制格式存储
- 标记文件中保存了 .bin 文件中数据的偏移量信息
- 标记文件 & 稀疏索引对齐,又与 .bin 文件一一对应,所以 mergeTree 通过标记文件建立了 primary.idx 稀疏索引与 .bin 数据文件之间的映射关系
- 先通过稀疏索引 primary.idx 找到对应的数据的偏移量 column.mrk ,再通过偏移量找到 .bin 数据
二、数据分区
数据是以分区目录的形式进行组织的,每个分区独立分开存储;
2.1 分区规则
数据分区的规则由分区ID决定,而具体到每个数据分区所对应的ID,则由分区键的取值决定;
针对取值数据类型的不同,分区ID的生成逻辑目前拥有四种规则
- 不指定分区键
- 如果不使用分区键,则分区ID默认取名为all
- 所有数据都会被写入这个all分区
- 整型分区键
- 如果分区键是整型,且无法转换成YYYYMMDD格式,则直接按照整型的字符形式输出;
- 日期分区键
- 如果分区键属于日期类型
- 或者能够转换成YYYYMMDD格式
- 则按照YYYYMMDD进行格式化后的字符形式输出
- 其它类型分区键
- 如果分区键不属于整型,也不属于日期类型
- 通过128位hash值作为分区ID的取值
2.2 命名规则
MergeeTree,最核心的特点就是分区目录的合并;
那么,201905_1_1_0这串数字是什么意思呢?
- partitionId
- 分区ID
- MinBlockNum
- 最小数据块编号
- 全局唯一,从1开始
- 最小取小
- MaxBlockNum
- 最大数据块编号
- 最大取大
- Level
- 合并的层级(次数)
- 非全局唯一,每创建一个分区,初始值为0
- 如果相同分区发生合并动作,则在相应分区内计数+1
2.3 合并过程
MergeTree的分区目录并不是在数据表创建就存在的,而是在数据写入过程中被创建的
每次Insert语句,MergeTree都会生成一批新的分区目录,即便不同批次写入的数据属于相同分区,也会生成新的分区目录;
对于同一个分区而言,也会存在多个分区的情况,在写入数据后10~15min,也可以手动执行optimize查询语句后,Clickhouse会通过后台任务将属于相同分区的多个分区目录进行合并;
已经存在的旧分区目录,也不会立刻删除,而是先置于active=0非激活状态,在某个时刻(默认8min)通过后台任务将其删除;
三、一级索引
MergeeTree的主键使用primary key定义,待主键定义之后,MergeTree会依据 index_granularity 间隔,为数据表生成一级索引并保存到 primary.idex 文件内,索引数据按照primary key排序;
primary.idx 文件内的一级索引采用 稀疏索引实现;
create table partition_v1 (ID String,URL String,EventTime Date) Engine=MergeTree() partition by toYYYYMM(EventTime) order by ID
iZwz9cs3943soqusmlnb7tZ :) select * from partition_v1
SELECT *
FROM partition_v1
┌─ID────┬─URL─────────┬──EventTime─┐
│ A1002 │ WWW.123.COM │ 2021-08-03 │
└───────┴─────────────┴────────────┘
1 rows in set. Elapsed: 0.002 sec.
iZwz9cs3943soqusmlnb7tZ :)
[root@iZwz9cs3943soqusmlnb7tZ 202108_5_5_0]# pwd
/var/lib/clickhouse/data/default/partition_v1/202108_5_5_0
[root@iZwz9cs3943soqusmlnb7tZ 202108_5_5_0]# ls -l
总用量 48
-rw-r----- 1 clickhouse clickhouse 389 8月 3 23:26 checksums.txt
-rw-r----- 1 clickhouse clickhouse 79 8月 3 23:26 columns.txt
-rw-r----- 1 clickhouse clickhouse 1 8月 3 23:26 count.txt
-rw-r----- 1 clickhouse clickhouse 28 8月 3 23:26 EventTime.bin
-rw-r----- 1 clickhouse clickhouse 48 8月 3 23:26 EventTime.mrk2
-rw-r----- 1 clickhouse clickhouse 32 8月 3 23:26 ID.bin
-rw-r----- 1 clickhouse clickhouse 48 8月 3 23:26 ID.mrk2
-rw-r----- 1 clickhouse clickhouse 4 8月 3 23:26 minmax_EventTime.idx
-rw-r----- 1 clickhouse clickhouse 4 8月 3 23:26 partition.dat
-rw-r----- 1 clickhouse clickhouse 12 8月 3 23:26 primary.idx
-rw-r----- 1 clickhouse clickhouse 38 8月 3 23:26 URL.bin
-rw-r----- 1 clickhouse clickhouse 48 8月 3 23:26 URL.mrk2
[root@iZwz9cs3943soqusmlnb7tZ 202108_5_5_0]# cat primary.idx
A1002A1002
3.1 索引粒度
索引粒度如同标尺一般,会丈量整个数据的长度,并按照刻度对数据进行标注,最终将数据标记成多个 间隔的小段;
MergeeTree使用 MarkRange表示一个具体的区间,并通过start和end表示具体的范围。
index_granularity不但只作用于一级索引,同时也会影响数据标记he数据文件,因为仅有一级索引自身是无法完成查询工作的,它需要借助数据标记才能定位数据,所以一级索引和数据标记的间隔粒度相同;
3.2 索引过程
- MarkRange在Clickhouse是用于定义标记区间的对象
- MarkRange按照index_granularity,将一段完整的数据划分为多个小的间隔数据段,一个具体的数据段即是MarkRange
- MarkRange与索引编号对应,使用start和end两个属性表示区间范围;
- 现在有一份测试数据,A000 - A192,共192行记录
- 主键ID String类型
- MergeeTree的索引粒度是 index_granularity=3
索引查询其实就是两个数值区间的交集
- 生成查询条件区间(条件转换)
- Where ID=“A0003”
- [“A0003”,“A0003”]
- Where ID>“A0003”
- (“A0003”,+inf)
- Where ID<“A0003”
- (-inf,“A0003”)
- 递归交集判断
- 递归形式
- 剪枝算法
- 合并MarkRange区间
四、二级索引
- 二级索引又称为跳数索引
- 默认情况下,跳数索引是关闭的,需要设置 allow_experimental_data_skipping_indices
- 跳数索引,会额外创建 skip_idx_[Cloumn].idx 与 skp_idx_[Cloumn].mrk
# 需要在 create 语句定义
INDEX index_name expr TYPE index_type(...) GRANULARITY granularity
CREATE TABLE skip_test (
ID String,
URL String,
Code String,
EventTime Date,
INDEX a ID TYPE minmax GRANULARITY 5,
INDEX b(length(ID) * 8) TYPE set(2) GRANULARITY 5,
INDEX c(ID,Code) TYPE ngrambf_v1(3, 256, 2, 0) GRANULARITY 5,
INDEX d ID TYPE tokenbf_v1(256, 2, 0) GRANULARITY 5
) ENGINE = MergeTree()
不同的跳数索引之间,还拥有granularity共同参数
- 定义了聚合信息汇总的粒度:一行跳数索引能够跳过多少个 index_granularity 区间的数据
- MergeeTree支持4种跳数索引
- minmax
- set
- ngrambf_v1
- tokenbf_v1
minmax
INDEX a ID TYPE minmax GRANULARITY 5
- minmax 记录了一段数据内的最小值,最大值;
- 其索引的作用类似区分目录,能够快速跳过无用的数据区间
set
INDEX b(length(ID) * 8) TYPE set(2) GRANULARITY 5
- 记录 数据中ID的长度 * 8 后取值
- 最多记录 8192 / 2 条
- 记录了声明字段或表达式的取值(唯一值,无重复),其完整形式 set(max_rows)
- max_rows 是一个阈值,表示在一个 index_granularity 内,索引最多记录的数据行数;
- max_rows=0,表示无限制
ngrambf_v1
INDEX c(ID,Code) TYPE ngrambf_v1(3, 256, 2, 0) GRANULARITY 5
- 记录的数据短语的布隆过滤器
- 只支持 string、fixedString 数据类型
- 只能提升in、notIn、like、equals、notEquals查询性能
- ngrambf_v1(n,size_of_bloom_filter_in_bytes,number_of_hash_functions,random_seed
- n:token长度,依据n的长度将数据切割为token短语
- size_of_bloom_filter_in_bytes:布隆过滤器的大小
- number_of_hash_functions:布隆过滤器中使用hash函数的个数
- random_seed:Hash函数的随机种子
tonkenbf_v1
INDEX d ID TYPE tokenbf_v1(256, 2, 0)</u< GRANULARITY 5
- 是 ngrambf_v1 的变种,同样是一种布隆过滤器索引
- 短语token的处理方式不同,其它的均一样
五、数据存储
在MergeeTree中,数据按列存储,数据是独立存储的,每列字段都用 .bin 数据文件,也正是这些 .bin 文件,承载着数据的物理存储,数据文件以分区目录的形式被存放;
MergeeTree并不是一股脑将数据直接写入.bin文件,而是经过压缩
- LZ4
- ZSTD
- Multiple
- Delta
数据会按照order by的声明排序
压缩数据块 = 头信息 + 压缩数据
头信息:
- 固定使用9位字节
- 1个UInt8整型(1字节)+ 2UInt32(4字节)整型
- 压缩算法类型 + 压缩后的数据大小 & 压缩前的数据大小
压缩数据:
- 每个压缩数据块的体积,都被严格控制在 64kb ~ 1MB 之间
- size<64kb:如果单个批次数据小于64kb,则继续获取下一批数据,直到累积到>size>=64KB
- size>1mb:按照1mb大小进行截断,并生成下一个压缩数据块
# 通过 compressor 能够查询某个.bin文件中压缩数据的统计信息
[root@iZwz9cs3943soqusmlnb7tZ 202108_5_6_1]# clickhouse-compressor --stat < URL.bin
24 32
.bin数据压缩
- 数据压缩有效减少了数据大小,降低了存储空间,并加速了数据传输速度
- 数据压缩、解压操作,会带来性能损耗
六、数据标记
为了能够与数据衔接,数据标记文件 & .bin 一一对应
一行标记数据使用一个元组表示
- 表示在此段数据区间中,在对应.bin压缩文件中,压缩数据块的起始偏移量
- 该数据压缩块解压后,其未压缩数据块的起始偏移量
标记数据与一级索引数据不同,并不能常驻内存,而是使用LRU缓存策略
6.1 查询过程
- 读取压缩块
- 读取数据
七、总结
分区 – 索引 – 标记 – 压缩
- 写入过程
- 查询过程
- 数据标记
- 压缩数据块
写入过程
- 数据写入的第一步,就是生成分区目录
- 每写入一批数据,都会生成一个新的分区目录
- 在某一个时刻,属于相同分区的目录会依照规则合并在一起(8min)
- 按照index_granularity索引粒度,生成primary.idx一级索引
- 如果声明二级索引,还会生成二级索引
查询过程
- 分区索引
- 一级索引
- 二级索引
- 数据标记
- 数据解压
- 计算数据范围
如果没有指定 where,或者指定 where 没有索引,则进行全表扫描(多线程形式)
最后
以上就是疯狂皮带为你收集整理的Clickhouse_6_原理解析 - MergeTree一、创建方式/存储结构二、数据分区三、一级索引四、二级索引五、数据存储六、数据标记七、总结的全部内容,希望文章能够帮你解决Clickhouse_6_原理解析 - MergeTree一、创建方式/存储结构二、数据分区三、一级索引四、二级索引五、数据存储六、数据标记七、总结所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复