数据挖掘入门（一）基本理论

387 阅读 0 评论 256 点赞

我是靠谱客的博主结实果汁，这篇文章主要介绍数据挖掘入门（一）基本理论，现在分享给大家，希望可以做个参考。

（一）数据质量分析
在数据挖掘的过程中，数据的预处理过程往往是十分重要的一环，而数据质量分析是数据预处理的前提，也是数据挖掘的基础。数据挖掘的过程要建立在数据可靠的基础之上。常见的“脏数据”有

缺失值：
概念：记录的缺失或者是记录中某个字段的缺失
原因：数据无法获取；信息在统计时被遗漏等
影响：增加数据挖掘过程中的不确定性、不可靠输出
处理：可采用填补（均值，众数，机器学习等方法）、删除等
异常值：
概念：录入错误以及含有不合理的数据，其数据明显偏离正常值，异常值也称“离群点”
原因：数据统计过程中的错误统计等
影响：降低数据挖掘的质量
处理：采用离群点检测算法来检测离群点
不一致值：
概念：不同数据源之间肯存在的相关字段，数据口径不一致的现象
原因：数据采集失误；数据建表不一致，数据关联形式不一致等
影响：增加了数据实验的困难度，使得数据挖掘的结果偏离