概述
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的不完整数据,重复数据以及错误数据等“脏”数据内容通过清洗转换操作转变为符合企业要求的数据,便于为企业的决策提供分析依据。
一:基于ETL的数据清洗
- ETL是实现商务智能的核心和灵魂。
- ETL的实现有多种方式,常见的方式有借助ETL工具、编写SQL语句、将ETL工具和SQL语句结合起来使用。
- 如果数据源为外部文件,就无法使用SQL语句进行数据清洗工作。
二:ETL关键技术
ETL关键技术一共有三个,分别是数据的抽取,数据的清洗转换以及数据的加载。
1. 数据的抽取
- 数据的抽取就是从异构数据源抽取数据,但是并不是所有数据源中的数据都有实际的价值。
- 数据的抽取分为数据的全量抽取和数据的增量抽取。
- 全量抽取类似于数据迁移或数据复制。增量抽取式是抽取数据源表中新增或被修改的数据。
- 数据的增量抽取有四种方式:一,触发器方式;二,时间戳方式;三,全表对比方式;四,日志表方式。
2.数据的清洗转换
- 数据的清洗转换是指将抽取到的数据源表中的数据,根据数据仓库系统模型的要求进行数据的清洗,转换等操作。
- 数据的清洗转换是ETL中最复杂的部分,主要任务是过滤掉不符合要求的数据。不符合要求的数据主要是有不完整的数据,错误的数据,重复的数据三大类。
- 不完整数据主要包括缺失部分信息的数据。
- 重复数据检测主要分为基于字段和基于记录的重复检测。基于字段的重复检测算法主要为编辑距离算法。基于记录的重复检测算法主要包括排序邻居算法,优先队列算法,N-Gram聚类算法。
3.数据的加载
- 数据的加载是ETL的最后一个阶段,它的主要任务是将数据从临时数据表或文件中加载到指定的数据仓库中。
最后
以上就是幸福香烟为你收集整理的数据清洗第二章知识点一:基于ETL的数据清洗二:ETL关键技术的全部内容,希望文章能够帮你解决数据清洗第二章知识点一:基于ETL的数据清洗二:ETL关键技术所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复