我是靠谱客的博主 懵懂饼干,最近开发中收集的这篇文章主要介绍数据挖掘之数据预处理小结,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

数据预处理的主要步骤:数据清理,数据集成、数据规约和数据变换。目的主要是将缺失的数据补充完整,消除噪声数据,识别和删除离群点并解决不一致性。做到将数据格式标准化、异常数据清除、错误纠正、重复数据清除。

1)异常数据处理:

异常数据分析:
(1)使用统计值进行判断,最大值、最小值、平均值等判断是否超出范围。
(2) 使用3原则,异常值和平均值比超出三倍标准差及小概率事件,可看做异常值.
(3)箱线图,数值超过了箱线图的上下边界即为异常值。
异常数据处理方式:
(1)删除异常数据
(2)视为缺失值,用缺失值处理方式进行处理
(3)平均值处理方法,前后观测值的平均值替代,或者整体数据的平均值。
(4)不进行处理,按正常数据

2)缺失值处理:

很多原因都会造成数据的缺失,现实世界的数据一般是不完整的、有噪声的和不一致的。主要原因有:
(1)保存不当缺失
(2)采集不当缺失
(3)不确定原因无法获取导致缺失
数据的缺失对数据挖掘有一定影响,因此我们需要进行对缺失值进行处理,处理缺失值主要方法:
(1)忽略元组
(2)人工填写缺失值
(3)使用一个全局常量填充缺失值(例如用unknown替换,该方法会让挖掘程序误认为他们形成了一个有趣的概念,因为他们都具有一个相同的常量unknown,因此该方法并不十分可靠)
(4)去掉缺失数据属性
(5)使用与给定元组属同一类的所有样本的属性均值或中位数代替
(6)默认值代替 预测值代替 插补法代替
插补法代替细分为:
(1)最近邻补插,附近值代替,前后值均值代替
(2)回归拟合代替

3)噪声数据处理:

噪声是被测量的变量的随机误差和方差,处理噪声的方法:
(1)分箱
(2)回归
(3)离群点分析
分箱法:按照一定的规律将数据放进一些箱子中,考察每个箱子中的数据,采用合适的方法处理箱子中的数据,分箱方法:
(1)权重分箱法(每个箱子里的数据量相同)
(2)统一区间法,根据属性区间平均分,相纸宽度是一个常量
(3)自定义区间法
分箱后对数据进行平滑处理的方法:
(1)平均值平滑
(2)边界值平滑
(3)中值平滑

离群点分析:可以通过如聚类来进行检测离群点,聚类将类似的值组织成群或“簇”,直观的,落在簇集合之外的值视为离群点,即为噪声数据

回归法:线性回归或者非线性回归来光滑数据 线性回归涉及找出拟合两个属性(或变量)的最佳直线,使得一个属性可以用来预测另外一个。多元线性回归是线性回归的扩充,涉及属性多于两个,并且数据拟合到一个多维曲面。

最后

以上就是懵懂饼干为你收集整理的数据挖掘之数据预处理小结的全部内容,希望文章能够帮你解决数据挖掘之数据预处理小结所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(57)

评论列表共有 0 条评论

立即
投稿
返回
顶部