概述
写在前面
业界流行 modern data stack 的说法,本质上就是将传统的一些工具用 SaaS 化的思路在云上重新再做一遍,从来显著提升客户的使用难度。modern data stack 几大核心是:cloud 、open-source 、SaaS business models。
data Integration 是个传统市场,Gartner 对这个市场很早就有分析,但是收集和整理的还是偏传统的公司,文中有一些简单关于 Gartner 对这个市场的理解和整理;
此次内容会分为上下两篇,本文会重点讨论下 Modern data stack 本身,还有 Gartner 对 data integration 的理解。后面还有一篇讨论具体的在 modern data stack 下面 data integration 都有些典型公司。
这块还是有非常多的创新的公司,典型的 FiveTran ,现在估值都超过50亿美金了。正是因为这些公司都比较早期,所以也还是在不停的冒出新的公司,所以我这个尝试梳理的,可能会有部分涉及不够全面。
Modern data stack 相对传统数据处理几点关键变化
云化:The move from on-prem to the cloud
ELT not ETL:数仓的计算能力会比较强,处理一般下移到数仓
自助式分析:The rise of self-service analytics to democratize data exploration
除了上面几点,modern data stack 核心变化下图有总结:
Modern data stack 示意
上图是一个典型的数据接入,存储和消费的流程,和传统的区别不大,核心是都被新云化服务取代。
下面这个图会更详细一些,但是缺少 reversel etl 部分,可以放到一起参考:
Gartner & Forrester 对 Data Integration 的定义
这个市场很复杂,Gartner 从场景角度做了一个比较好的定义,但是这个定义偏 marketing:
Data Engineering:创建、管理和操作数据 pipeline,给数据仓库,数据湖,或者给 end-user自服务的数据集成能力。
Cloud Migration:数据迁移和整合能力到云的基础设施,或者直接在云上提供服务,支持混合云,多云或者通过云来进行集成的场景。
Operational Data Integration: 操作数据集成(包括操作数据,事务数据等),支持关键业务。企业间数据分享。跨应用数据一致性,包括企业内部或者企业间。
Data Fabric: 数据集成的同时支持作为数据服务(可以通过web接口访问)。包括支持各种数据生产和消费者。
老牌厂商很多,Gartner 2021 数据集成魔力象限如下:
Forrester 2020 Q2 Data Fabric 梳理的厂商
上面的 Gartner 和 Forrester 主要都是一些比较老牌的厂商;不是特别符合现在所说的 modern data stack 的逻辑。
下一遍接着梳理这个领域都有哪些公司,以及能做什么?敬请期待!
最后
以上就是暴躁魔镜为你收集整理的Modern Data Stack 下 Data Integration 生态(上)Modern data stack 相对传统数据处理几点关键变化Modern data stack 示意的全部内容,希望文章能够帮你解决Modern Data Stack 下 Data Integration 生态(上)Modern data stack 相对传统数据处理几点关键变化Modern data stack 示意所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复