数据挖掘入门(一)基本理论
(一)数据质量分析在数据挖掘的过程中,数据的预处理过程往往是十分重要的一环,而数据质量分析是数据预处理的前提,也是数据挖掘的基础。数据挖掘的过程要建立在数据可靠的基础之上。常见的“脏数据”有缺失值:概念:记录的缺失或者是记录中某个字段的缺失原因:数据无法获取;信息在统计时被遗漏等影响:增加数据挖掘过程中的不确定性、不可靠输出处理:可采用填补(均值,众数,机器学习等方法)、删除等异常值:概念:录入错误以及含有不合理的数据,其数据明显偏离正常值,异常值也称“离群点”原因:数据统计过程中