我是靠谱客的博主 结实果汁,最近开发中收集的这篇文章主要介绍数据挖掘入门(一)基本理论,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

(一)数据质量分析
在数据挖掘的过程中,数据的预处理过程往往是十分重要的一环,而数据质量分析是数据预处理的前提,也是数据挖掘的基础。数据挖掘的过程要建立在数据可靠的基础之上。常见的“脏数据”有

  • 缺失值
    概念:记录的缺失或者是记录中某个字段的缺失
    原因:数据无法获取;信息在统计时被遗漏等
    影响:增加数据挖掘过程中的不确定性、不可靠输出
    处理:可采用填补(均值,众数,机器学习等方法)、删除等

  • 异常值
    概念:录入错误以及含有不合理的数据,其数据明显偏离正常值,异常值也称“离群点”
    原因:数据统计过程中的错误统计等
    影响:降低数据挖掘的质量
    处理:采用离群点检测算法来检测离群点

  • 不一致值
    概念: 不同数据源之间肯存在的相关字段,数据口径不一致的现象
    原因:数据采集失误;数据建表不一致,数据关联形式不一致等
    影响:增加了数据实验的困难度,使得数据挖掘的结果偏离

(二)数据统计量
统计量是统计理论中用来对数据进行分析、检验的变量。通过统计量可以借助样本数据区推断总体的特征。假设x1,x2,…,xn是从总体X中抽取容量为n的一个样本,如果由此样本构造一个函数F(x1,x2,…,xn),称这个函数为一个统计量。
常用统计量

  • 均值、方差、偏度、峰度
  • 最小值、中位数、众数、最大值
  • 卡方统计量

(三)相关性分析

最后

以上就是结实果汁为你收集整理的数据挖掘入门(一)基本理论的全部内容,希望文章能够帮你解决数据挖掘入门(一)基本理论所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(50)

评论列表共有 0 条评论

立即
投稿
返回
顶部