我是靠谱客的博主 单薄小蝴蝶,最近开发中收集的这篇文章主要介绍CDC(变化数据捕获)同步技术详解,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

一、CDC(Change Data Capture)变化数据捕获概念

1、变化数据捕获简称CDC,抽取处理需要重点考虑增量抽取,假设一个数据仓库系统,在每天夜里的业务低峰时间从操作型源系统抽取数据,那么增量抽取只需要过去24小时内发生变化的数据。

注意: 当你能够识别并获得最近发生变化的数据时,抽取及其后面的转换、装载操作显然都会变得更高效,因为这样需要处理的数据量就会少很多。

二、CDC(变化数据捕获)分类

1、 CDC大体可以分为两种:

(1)侵入式:是指CDC操作会给源系统带来性能的影响。只要CDC操作以任何一种方式对源库执行了SQL语句,就可以认为是侵入式的CDC。

(2)非侵入式:对源系统不具有侵入性。

2、CDC变化数据捕获的方法:

(1)时间戳方法:需要源系统有相应的数据列表示最后的数据变化。

(2)快照方法:可以使用数据库系统自带的机制实现,如Oracle的物化视图技术,也可以自己实现相关逻辑,但会比较复杂。

(3)触发器方式:是关系数据库系统具有的特性,源表上建立的触发器会在对该表执行insert、update、delete等语句时被触发,触发器中的逻辑用于捕获数据的变化。

(4)日志方式:可以使用应用日志或系统日志,这种方式对源系统不具有侵入性,但需要额外的日志解析工作。

3、总结:

(1)基于时间戳的CDC、基于触发器的CDC、基于快照的CDC是侵入性的;

(2)基于日志的CDC是非侵入性的。

 

时间戳方式

快照方式

触发器方式

日志方式

能区分插入/更新

周期内,检测到多次更新

能检测到删除

不具有侵入性

支持实时

需要DBA

不依赖数据库

三、主与辅的存储组件之间数据同步和复制

1、应用层多写:这是实现最简单、依赖最少的一种实现方式,通常采取的方式是在应用代码中先向主存储写数据,后向辅存储写数据。这种方式不是很严谨,通常用在对数据可靠性要求不是很高的场景。因为存在的问题有很多,一是很难保证主与辅之间的数据一致性,无法处理数据写入失效问题;二是数据写入的消耗堆积在应用层,加重应用层的代码复杂度和计算负担,不是一种解耦很好的架构;三是扩展性较差,数据同步逻辑固化在代码中,比较难灵活添加辅存储。

2、异步队列复制:这是目前被应用比较广的架构,应用层将派生数据的写入通过队列来异步化和解耦。这种架构下可将主存储和辅存储的数据写入都异步化,也可仅将辅存储的数据写入异步化。第一种方式必须接受主存储可异步写入,否则只能采取第二种方式。而如果采用第二种方式的话,也会遇到和上一种『应用层多写』方案类似的问题,应用层也是多写,只不过是写主存储与队列,队列来解决多个辅存储的写入和扩展性问题。

3、CDC(Change Data Capture)技术:这种架构下数据写入主存储后会由主存储再向辅存储进行同步,对应用层是最友好的,只需要与主存储打交道。主存储到辅存储的数据同步,则可以再利用异步队列复制技术来做。不过这种方案对主存储的能力有很高的要求,必须要求主存储能支持CDC技术。一个典型的例子就是MySQL+Elasticsearch的组合架构,Elasticsearch的数据通过MySQL的binlog来同步,binlog就是MySQL的CDC技术。

最后

以上就是单薄小蝴蝶为你收集整理的CDC(变化数据捕获)同步技术详解的全部内容,希望文章能够帮你解决CDC(变化数据捕获)同步技术详解所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(30)

评论列表共有 0 条评论

立即
投稿
返回
顶部