智能数据构建与管理平台Dataphin的前世今生：缘起

284 阅读 0 评论 188 点赞

我是靠谱客的博主细心大白，这篇文章主要介绍智能数据构建与管理平台Dataphin的前世今生：缘起，现在分享给大家，希望可以做个参考。

简介： 阿里巴巴提出的OneData方法论帮助企业捋清了数据全生命周期的管理思路，更将其植入到产品Dataphin（智能数据构建与管理）中，通过阿里云为企业提供服务。

Dataphin 智能数据构建与管理平台

面向各行各业大数据建设、管理及应用诉求，一站式提供从数据接入到数据消费全链路的智能数据构建与管理的大数据能力，包括产品、技术和方法论等，助力打造标准统一、融会贯通、资产化、服务化、闭环自优化的智能数据体系，以驱动创新。

Dataphin产品直达：https://www.aliyun.com/product/dataphin

困难是最好的教练

阿里巴巴从2008年开始建设自有的大数据体系，致力于构建好数据服务多样的业务。一路上，经历了各种各样的困难。

技术陷在临时取数不可知：阿里内部曾经通过建设专门的“临时取数需求管理系统”，给每个业务线分配临时取数的时间额度，每次还没到月底,额度已经为零，业务同学追着数据技术同学加班取数的情况时有发生......为了改变这一局面，专门建立了“业务人员SQL技能培训”，希望用这样的方式让业务人员自己掌握临时取数技能，美其名曰“赋能”。而这背后的本质是：资源。

数据口径定义有差别：曾经就因为数据口径差异，差点造成商家损失。商家在后台看到的数据预测，显示可以达到活动报名要求，于是提前备货，准备大干一场，但是最终报名却没有通过，原因是小二侧的数据口径与商家侧的数据口径不一致，小二系统评估商家的数据未达标，导致不通过。虽然最终通过协调解决了问题。但这背后的本质是：标准。

加班做报表，汇报还被骂加班取数是常态，通常取数花费2-3小时，而之后的核对差异则要花费巨大精力，动辄1-2天；最后的汇报环节，也会因为一些口径差异及数据质量问题造成尴尬，甚至会出现错误数据导致决策失误的情况。这背后的本质是：质量。

除了上述这几个典型的场景，阿里巴巴也曾因业务增长而出现数据量爆发增长，对数据不治理不管理，意味着数据的存储和计算成本不断攀升。成本，也是大数据领域面临的困难之一。

探索中前行，实战中沉淀带着克服困难的决心，阿里巴巴开始了B2B业务数据建设、电商业务数据建设、阿里系业务数据建设。过程中，边探索、边沉淀、边前行，通过更体系化的数据建设提升数据质量，降低数据重构的风险，提升数据服务的效率。经历近十年的打磨，基于实战，阿里巴巴沉淀了OneData大数据建设的方法论（OneModel+OneID+OneService)。OneModel通过对数据体系化架构、数据元素规范定义、数据指标结构化拆解，对数据进行统一的构建及管理；OneID通过建立实体对象、对象相关的行为数据及标签构建方法，对企业的核心商业要素进行资产化；对数据资产进行统一的主题式数据单元构建，配置构建数据API并提供API服务，以提升数据资产消费的便捷性，提升数据资产价值。

克服痛点创造领先的大数据能力

随着全球数字化进程的加速，企业面临着更加严峻的市场竞争，而数智化转型所遇到的困境也曾是阿里巴巴最初之痛。于是，阿里云数据中台应运而生，与各行各业的企业在数据领域开展了合作，解决企业凸显的数据问题：

●数据标准问题：烟囱式开发及局部业务服务支撑，导致指标同名不同口径问题频发；历史上不同业务系统逐步迭代上线，相同对象属性编码不一致等问题突出；

●数据质量问题：重复建设导致任务链冗长、任务繁多，计算资源紧张，数据时效性不好；口径梳理定义的文档沉淀到开发代码实现之间存在脱节，数据准确性保障风险高；

●需求响应问题：烟囱式开发周期长、效率低，面向应用的服务化不足，导致业务响应速度慢，业务不满意的同时技术又觉得没有沉淀与成长；既懂业务又懂数据的人才不足，需求理解到开发实现涉及大量沟通，服务效率较差；

●成本资源问题：烟囱式开发的重复建设浪费技术资源；上线难下线更难，源系统或业务变更不能及时反映到数据上，加之数据不标准，研发维护难上加难的同时，大量无用计算和存储造成资源浪费。

阿里巴巴提出的OneData方法论帮助企业捋清了数据全生命周期的管理思路，更将其植入到产品Dataphin（智能数据构建与管理）中，通过阿里云为企业提供服务。 Dataphin除了大数据处理全链路涉及到的数据集成、开发、发布、调度、运维能力，同时提供了数据规范定义、逻辑模型定义、代码自动化生成、数据主题式服务能力，高效地完成好数据的构建。

Dataphin产品核心模块

Dataphin自2018年问世以来，已发展出了丰满的大图，到目前为止经历了多轮大版本升级，产品核心的能力模块清晰显现。
1、环境适配
最底层为Dataphin的环境适配能力。Dataphin支持不同的云环境，为不同规模以及不同部署要求的客户提供不同的选择，包括公共云多租户、公共云VPC、专有云企业版及敏捷版，以及本地IDC部署。
2、引擎支持
在云环境之上，根据不同的云环境可以支持不同的计算引擎。离线的计算引擎包括阿里云MaxCompute，Hadoop生态引擎包括阿里云E-MapReduce、CDH5、CDH6、以及即将支持的FusionInsight、CDP等。实时计算引擎支持阿里云Blink和Flinkvvp。开源版本的Flink也即将支持。
3、数据构建
基于不同的云环境和计算引擎，Dataphin提供了大数据处理全链路涉及的数据集成、开发、发布、调度、运维能力，提供了数据规范定义、逻辑模型定义、代码自动化生成、主题是查询的数据构建能力。
4、资产
Dataphin提供了配套的资产地图、资产血缘、资产质量管理和监控、资源成本管理和提效的资产管理能力，并提供了配置化的资产服务研发和管理能力，可将数据资产快速服务业务、反哺业务。

原文链接
本文为阿里云原创内容，未经允许不得转载。