概述
我对ORACLE BI 的ETL的一些总结(原) 收藏
http://blog.chinaunix.net/u/25176/showart_2036107.html
数据仓库中的ETL详细的分为四个阶段:提取,传输,转换,装载。我先简单的介绍一下提取和传输的分类和方法:
一:提取
提取可以分为逻辑提取,和物理提取。
1:逻辑提取按照规模分为:完全提取,增量提取。
完全提取简单运用EXP或者全表扫描可以完成。
增量提取是提取相比上次提取增加了的数据,也可以是按照数据产生时间PATITION了的一个分区等等。Oracle's Change Data Capture 是ORACLE为增量提取提供的一个完备的机制。可以运用基于Timestamps,Partitioning,Triggers的增量提取。
2:物理提取又分为在线提取和离线提取。
在线提取是直接连接数据库,访问数据库的表,然后提取。
离线提取是指提取数据库以外的一些文件,比如Flat file,Dump file,Redo or Archive log.Transportable tablespaces。等等。
提取的方法很多。可以用sqlplus把数据提取到FLAT file中,也可以用exp,甚至可以直接用oracle net处理。比如:
CREATE TABLE country_city AS SELECT distinct t1.country_name, t2.cust_city
from countries@source_db t1, customers@source_db t2
WHERE t1.country_id = t2.country_id
AND t1.country_name='United States of America';
所有提取不是ETL中困难的过程。
二:传输
通过FTP或者Transportable Tablespaces(建立一个临时的表空间用来存提取出来需要传输的数据,然后EXP这个表空间)
三:转换
转换的过程是ETL最复杂,处理时间最长的过程。这个过程涉及的ORACLE知识比较多。开发人员需要知道怎样选择最有效,最便捷的技术,我将在本文详细说明。
我理解的转化过程就是,通过若干个步骤来处理转化过程中需要处理的每一个问题,而这若干步骤是通过建立若干的临时表来完成的,后一个步骤建立的临时表是在前一个步骤建立的临时表的基础上建立起来的。这样一次一次的转化,最后得到转化的结果。
1:Transformation Flow
如果你自己涉及转化的过程,你会想到什么?首先明确,咱们的目的是什么,我们有一个STAGING表,我们是要把这个表的数据添加到DW的事实表中,但是不是简单的添加,这些数据需要按照SCHEMA DESIGN的要求,把所有和维表对应的描述信息分�
最后
以上就是谨慎棉花糖为你收集整理的oracle bi 包括etl,我对ORACLE BI 的ETL的一些总结的全部内容,希望文章能够帮你解决oracle bi 包括etl,我对ORACLE BI 的ETL的一些总结所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复