学习数据挖掘前该知道的事

63 阅读 0 评论 42 点赞

我是靠谱客的博主美满小鸭子，最近开发中收集的这篇文章主要介绍学习数据挖掘前该知道的事，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

为什么需要数据挖掘技术？

数据收集和数据存储技术的快速进步使得各组织机构可以积累海量数据。

数据量太大，无法使用传统的数据分析工具和技术处理它们
即使数据集相对较小，但由于数据本身具有一些非传统特点（自己品），也不能使用传统的方法处理。
面临的问题不能使用已有的数据分析技术来解决。

一种新的技术需求产生

数据挖掘技术是一种技术，它将传统的数据分析方法与处理大量数据的复杂算法相结合。

传统的数据分析方法，处理大量数据的复杂算法，这是学习的重难点。

什么是数据挖掘？

数据挖掘是在大型数据存储库中，自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库，发现先前未知的有用模式。数据挖掘还可以预测未来观察结果。

与信息检索的区别：

信息检索：使用数据库管理系统查找个别的记录。或通过因特网的搜索引擎查找特定的web页面，这是信息检索的任务，它们主要依赖传统的计算机科学技术和数据的明显特征（直白可见的）来创建索引结构，从而有效地组织和检索信息。

数据挖掘与知识发现：

知识发现（KDD）是将未加工过的数据转换为有用信息的整个过程，该过程包括：
输入数据、数据预处理、 数据挖掘（KDD中的一步）、后处理、得到信息。

（1）输入数据可以以各种形式存储（电子数据表和关系表），并且可以驻留在集中的数据库中，或分布在多个站点上。
（2）数据预处理（preprocessing）的目的是将未加工的输入数据转换为适合分析的形式。涉及步骤：融合来自多个数据源的数据、清洗数据以消除噪声和重复的观测值、选择与当前数据挖掘任务相关的记录和特征。可能是最费力、最耗时的步骤
（3）后处理步骤（postprocessing）确保只将那些有效的和有用的结果集成到决策支持系统中，后处理的一个例子就是可视化，它使得数据分析者可以从各种不同的角度来探查数据和数据挖掘结果。

数据挖掘要解决的问题

下面是一些具体的问题：

可伸缩性。由于数据产生和收集技术的进步，数G字节、T字节甚至P字节的数据集越来越普遍，如果数据挖掘算法要处理这些海量数据，则算法必须是可伸缩的（scalable）许多数据挖掘算法使用特殊的搜索策略处理指数级搜索问题，还有当数据不能放入内存时，可能要非内存算法。使用抽样技术或开发并行和分布算法也可以提高可伸缩程度。
高维性。成百上千属性的数据集。
异种数据和复杂数据。
数据的所有权和分布。分布式数据挖掘算法的需要，因为分析的数据并非存放在一个站点。
非传统的分析，当前的数据分析任务常常需要产生和评估数千种假设，因此需要自动地产生和评估假设。

数据挖掘的任务

预测任务。根据其他属性的值，预测特定属性的值（标签类别），被预测的属性一般称为目标变量（target variable）或因变量（dependent variable）。而用来预测的属性称为说明变量(explanatory variable)或自变量(independent variable)
描述任务。目标是导出概括数据中潜在联系的模式（相关、趋势、聚类、轨迹和异常），本质上，描述性数据挖掘任务通常是探查性的。并且常常需要后处理技术验证和解释结果。

要学习的内容

预测建模（predictive modeling）涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务：分类（classification）和回归(regression)。

关联分析（association analysis）用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴含规则或特征子集的形式表示。由于搜索空间是指数规模的，关联分析的目标是以有效的方式提取最有趣的模式，如理解地球气候系统不同元素之间的联系。

聚类分析（cluster analysis）旨在发现紧密相关的观测值组群，使得与属于不同簇的观测值相比，属于同一簇的观测值相互之间尽可能类似。聚类可用来对相关的顾客分组等。

异常检测（anomaly detection）的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点(anomaly）或离群点（outlier），异常检测算法的目标是发现真正的异常点，从而避免错误地将正常的对象标为异常点。一个好的异常检测器必须具有高检测率和低误报率，异常检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式等。

以上分类、关联分析、聚类分析、异常检测就是我们之后要学习的内容。