概述
概述
提升数据质量是数据治理工作中一个非常重要的环节和目标,高质量的数据才能为后续数据的开发应用提供可靠支撑,因而对数据质量的管理就显得尤为重要。
数据质量的定义其实很简单,就是通过一些列的维度和指标来描述、评价一个数据的质量优劣。基于这些质量分析过程和评价结论,有的放矢,对质量问题进行处理,从而提升数据质量。
数据质量分析方法
针对数据质量分析的方法有很多,在国际上和业内都有一些具体的规则和标准,总结起来,一般有所谓的数据质量六性,即一致性、完整性、准确性、唯一性、有效性、及时性(有些观念对质量维度的定义可能有所差异,但基本上都是大同小异)。
一致性:数据在不同系统、不同库中的描述和相关属性是相同的,不会出现A系统是手机号、B系统是座机号的这种情况。
完整性:数据在采集、流转的过程中,容易出现信息缺失、丢失的问题,比如记录的缺失、某个属性字段的缺失、空值等,完整性分析就是要对这些情况进行分析判断。
准确性:数据的属性描述与数据本身是匹配的,比如数据要符合数据定义的类型、字符长度、取值等信息,不能说字段定义是str型的姓名,结果数据是int型的手机号,这就明显不对了。
唯一性:数据不重复存储,没有冗余数据对业务协同、流程串接造成干扰和影响,数据在库内是唯一的。
有效性:有效性也称为规范性,是指数据的命名、长度、取值范围等约束条件满足用户设定要求的程度。
及时性:数据从生产出来到存储可查看,这中间是有一点的时间间隔的,及时性就是去判断这个时间间隔是否符合用户或业务的要求。
基于上述数据质量六性,不同企业可以根据自身的需求对数据质量进行有侧重点的分析和治理,可以通过不同的计算公式对各维度的数据质量问题进行筛查,是的数据的质量六性符合企业要求。
数据质量治理流程
数据质量治理既是一个技术问题,更是一套管理上的方法论,需要形成流程体系来完成对数据质量的把控和优化。
- 明确数据质量管理对象:哪些业务数据需要进行质量的分析和优化,在实际业务中出现过哪些质量问题,需要达到什么程度的质量要求……
- 制定数据质量分析规则:在数据质量分析方法的基础上,制定具体的数据质量分析规则,主要是各类计算公式和一些参数配置。
- 执行数据质量稽核任务:基于数据质量分析规则,构建具体的数据质量稽核任务,对目标数据的质量进行分析。
- 定向整改数据质量问题:基于质量稽核的结果,有的放矢,对数据质量问题进行整改,包括人工修改、数据重采等。
总结
其实数据质量管理不单单是一个后向管理的过程,要想保障高质量的数据供给,重点还是要在数据采集、模型设计等前置环节,就要严格遵循各类标准规范,从源头就对数据质量进行保障和管控,从而减少后续数据开发应用过程中的数据质量问题。
最后
以上就是朴实衬衫为你收集整理的数据治理系列文章:(6)数据质量的全部内容,希望文章能够帮你解决数据治理系列文章:(6)数据质量所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复