基于Flink Hudi的增量ETL架构

318 阅读 0 评论 210 点赞

我是靠谱客的博主动人龙猫，这篇文章主要介绍基于Flink Hudi的增量ETL架构，现在分享给大家，希望可以做个参考。

资料下载链接：i基于FlinkHudi的增量ETL架构-Python文档类资源-CSDN下载

免费下载链接：基于Flink Hudi的增量ETL架构.pdf: https://url04.ctfile.com/f/21260504-597344925-3983d2?p=1191 (访问密码: 1191)

介绍：

数仓到数据湖

数据库入仓湖

HUDI 核心

Flink HUDI ETL

近两年数据湖是一个比较火的技术，从传统的数仓到数据湖，在过去 5 年里架构演变的非常迅速。在 2015 年之前提到数仓我们想到的都是一些非常专业的数据公司，像 Teradata、Vertica 做的类似 MPP 架构的数据库，它的模型基本是存储与计算耦合在一起，format 是封闭的，后期的维护也处于比较封闭的状态，暴露给外界的接口也没有那么丰富。2015年到2018年随着云厂商的兴起，像 EMR、Amazon、Redshift 等云上数仓，特色是将传统的垂直架构改成了分层的存储计算分离的水平架构，尽量利用云上廉价存储的优势，利用对象存储 s3、oss来降低成本，同时支持海量数据的计算能力。但是它们的 format 仍然是封闭的，会定制自己的 format 来做一些深度的优化，下游查询引擎也比较单一。从 2018 年开始到目前，伴随着云服务的逐渐流行，数据湖技术渐渐兴起。数据湖技术目前主要有 Hudi、Iceberg、Dalta Lake。

数据湖相比原有的数仓更加灵活，它并不是一个 server，而是一个类似 table format 的概念。它定义了 table 的一些规范以及 format 的操作规范，可以操作云服务上底层的对象存储，所以可以和云服务很好的结合起来，下游对接的查询引擎也非常丰富，如 presto、sparkSQL、hive等。同时它的 format 本身也是非常开放的，像列式存储有 orc、parquet，行式存储有 avro 这些标准的数据格式，为下游生态的对接提供了丰富的可能性。这样以一种 table format 的形式暴露给下游，不管是运维还是开发，基本都是透明的，所以对于自建集群与开源生态来说，数据湖是很受欢迎的一种形式。

在云服务上去解决传统数仓处理的业务问题，那么在数据湖上也必须要具备事务、upsert 等能力。推动架构的演变的就是我们希望把数仓上的操作原语能够在数据湖上支持起来。这样湖仓一体的架构才能支持后续业务的发展。所以数据湖需要解决的核心问题，第一是事务，第二是 upsert 能力。综合这两块，目前 hudi 在目前的数据湖框架里是做的最成熟的，提供的事务模型是快照级别，初步实现了海量数据 upsert 以及事务的管理能力。