ClickHouse插入频繁报错优化频繁写入ClickHouse报错原因实时写入引入缓存buffer离线服务使用预构集群ClickHouse配置优化

93 阅读 0 评论 62 点赞

我是靠谱客的博主斯文铅笔，最近开发中收集的这篇文章主要介绍ClickHouse插入频繁报错优化频繁写入ClickHouse报错原因实时写入引入缓存buffer离线服务使用预构集群ClickHouse配置优化，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

初次使用ClickHouse，基本都会碰到如下图中too many parts的报错。本文将具体介绍报错原因和优化方案。
在这里插入图片描述

频繁写入ClickHouse报错原因

在这里插入图片描述

如上图所示，clickhouse操作数据的最小操作单元是block，每次写入，都会按照zookeeper记录的唯一自增的blockId，按照PartitionId_blockId_blockId_0生成data parts，也就是小文件，然后后台会有merge线程，不定时（分钟级别）的将多个小文件进行合并，生成PartitionId_MinBlockNum_MaxBlockBum_Level的文件，未达到data parts最小rows或者大小限制前，会持续merge，每次merge的耗时大概5分钟左右。由于merge线程池是固定的，默认32，所以如果插入过于频繁，merge压力过大，处理不了，就会出现too many parts的报错。

实时写入引入缓存buffer

基于实时清洗，如果延时要求高，可以使用redis做缓存，根据时间窗口期和固定写入阈值（针对波动大的可以按照二次指数平滑函数去确定阈值）进行写入与否的判断；如果能接受一定的时延，可以使用flink的窗口去做。

在这里插入图片描述

离线服务使用预构集群

离线导入的数据量一般比较大，可以基于spark调度任务，预先进行数据的shuffle和排序，然后写入预构集群，这样可以提前merge成data parts，然后通过remote推送到正式的ClickHouse集群，这样可以减少正式集群的merge压力，同时达到读写分离。
在这里插入图片描述

ClickHouse配置优化

ClickHouse存储方式优化

ClickHouse默认Wide，我们可以针对业务场景特点和数据量，对于一定数据量（条数&大小两个方面）以下，选择Compact，这样可以减少merge压力和时间，针对超过的使用wide。
在这里插入图片描述

调大后台Merge线程池数量

通过backbackground_pool_size调整merge线程大小，默认是32，这个结合ClickHouse服务器进行适当调整，不宜过大

最后

以上就是斯文铅笔为你收集整理的ClickHouse插入频繁报错优化频繁写入ClickHouse报错原因实时写入引入缓存buffer离线服务使用预构集群ClickHouse配置优化的全部内容，希望文章能够帮你解决ClickHouse插入频繁报错优化频繁写入ClickHouse报错原因实时写入引入缓存buffer离线服务使用预构集群ClickHouse配置优化所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错，欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(62)

本文分类：温习
浏览次数：93 次浏览
发布日期：2024-01-15 22:56:13
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_23_ogf4_14__7__2_2.html

相关文章

clickhouse 核心知识与集群介绍1. 介绍2. 优缺点3. 表引擎4. 数据类型5. SQL6. 集群介绍

clickhouse 核心知识与集群介绍1. 介绍2. 优缺点3. 表引擎4. 数据类型5. SQL6. 集群介绍

Flink实战（123）：connector（二十）clickhouse写入(三)

Flink实战（123）：connector（二十）clickhouse写入(三)

Clickhouse_6_原理解析 - MergeTree一、创建方式/存储结构二、数据分区三、一级索引四、二级索引五、数据存储六、数据标记七、总结

Clickhouse_6_原理解析 - MergeTree一、创建方式/存储结构二、数据分区三、一级索引四、二级索引五、数据存储六、数据标记七、总结

ClickHouse源码阅读(0000 1101) —— ClickHouse是如何读写数据的（readVarUInt和writeVarUInt方法解析）

ClickHouse源码阅读(0000 1101) —— ClickHouse是如何读写数据的（readVarUInt和writeVarUInt方法解析）

ClickHouse插入频繁报错优化频繁写入ClickHouse报错原因实时写入引入缓存buffer离线服务使用预构集群ClickHouse配置优化

ClickHouse插入频繁报错优化频繁写入ClickHouse报错原因实时写入引入缓存buffer离线服务使用预构集群ClickHouse配置优化

ClickHouse表常用引擎

ClickHouse表常用引擎

ClickHouse Merge合并时机问题

ClickHouse Merge合并时机问题

【clickhouse】ClickHouse表引擎 MergeTree 数据生命周期1.概述2.列级别 TTL3.表级别 TTL4. TTL 运行原理

【clickhouse】ClickHouse表引擎 MergeTree 数据生命周期1.概述2.列级别 TTL3.表级别 TTL4. TTL 运行原理

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部