概述
来公司的第一天收到要熟悉数据仓库与数据挖掘的任务,任务内容如下:
1.阅读有关数据仓库、数据挖掘、OLAP在线联机分析的相关文档,掌握和了解相关基础知识和概念
2.了解常见的数据仓库及OLAP解决数据决策分析有效性的解决方案,以及主要的实施过程
3.重点了解微软的解决方案
4.在电脑上安装微软sqlserver2008及visual studio2008及相关环境,简单熟悉和掌握开发过程
5.了解数据仓库的设计原则和方法,并尝试用你之前做过的一个系统(建议20个业务表的小系统比较合适),在上述环境进行数据仓库设计
6.在5的结果下,进行ETL过程设计,并执行ETL过程
7.在5的结果下,进行维度、测度、KPI的相关设计,生成数据立方体
8.在7的结果下,进行报表、交叉表、仪表盘、页面的设计
9.了解熟悉mdx语法和dmx语法
整理与解答:
问题1:
1.DW(Data Warehouse):数据仓库
①什么是数据仓库?what?
数据仓库是一个面向主题的(用于为特定主题的功能提供信息)、集成的(可从多个数据库系统中集成信息)、相对稳定的()、反应历史变化的(按周期更新数据)数据集合,用于支持管理决策。它有一下两个特点:1>首先数据仓库是用于支持决策的,帮助人对数据进行分析处理,这一点它有别于操作型数据库。2>数据仓库是多个异构数据源的有效集成,集成够按照主题进行重组,为了方便分析,它包含历史数据,而且存放在数据仓库中的数据一般不再修改。(企业数据仓库的建设是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们作出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理、归纳和重组,并及时提供给相应的管理决策人员是数据仓库的根本任务。)
②为什么要建立数据仓库?why?
因为传统的事物型数据库不能满足信息分析的需求,这原于它们之间处理性能的不同:
1>因为事务型数据库中的数据是动态变化的,在分析一些数据信息时,我们希望事务型数据库是空闲的,然而它却表示数据操作频繁,根本停不下来,所以系统处理新数据的有效性被大打折扣。(事务型数据总是在动态的变化之中的。决策支持型处理需要相对稳定的数据,从而问题都能得到一致连续的解答。)
2>而数据仓库支持决策型数据处理解决了这一问题。具体处理方式在之后的问题中解答。
2.DM(Data Mining):数据挖掘
①什么是数据挖掘?what?
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。
②如何进行数据挖掘?how?
略。
问题2:
1.数据仓库解决办法:
将决策支持型数据处理从事务型数据处理中分离出来,数据按照一定的周期(通常为每晚或每周末)从事务型数据库导入决策支持型数据库——数据仓库。数据仓库是按回答企业某方面问题来分“主题”组织数据的,这是最有效的数据组织方式。
2.OLAP(On Line Analytical Processing):联机分析处理 解决方法:
多维数据贮存:将关系型的或普通的数据进行多维数据存贮,以便于进行分析,从而达到联机分析处理的目的。这种多维DB也被看作一个超立方体,沿着各个维方向存贮数据,它允许用户沿事物的轴线方便地分析数据,与主流业务型用户相关的分析形式一般有切片和切块以及下钻、挖掘等操作。
问题3:
为查阅到相关资料。
问题4:
sqlserver2008及visual studio2008已成功安装,并熟悉了基本的功能操作。
问题5:
数据仓库设计的原则:http://wenku.baidu.com/link?url=Yv0bvHgbUncUXfHnphC8B5_0GSrwK7tnrkP92MbAJPap_bqwX-p2_6X9W9NXfdYIXBN9Nw06YvKlGdAMQ5DZ0_hf2uvLANu716KOSk_WwRK
数据仓库设计的方法:http://tech.it168.com/d/2008-01-04/200801041342948.shtml
数据仓库设计尝试中:.......
问题6:
ETL过程设计:http://wenku.baidu.com/link?url=g9y-IhyflyfT1OR-8uOThSbIAcWBDKfqMRX2tvxhQCiiFVTszAggsmQS92QiytS0mnSGnS8YxK5IfHnPk9N22DVTuyTsSHGsETYJLldJ6bG
数据仓库ETL过程尝试中:......
最后
以上就是怡然豌豆为你收集整理的数据仓库与数据挖掘的个人总结的全部内容,希望文章能够帮你解决数据仓库与数据挖掘的个人总结所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复