概述
文章目录
- 数据预处理
- 数据质量
- 关于数据质量的一些统计学规律
- 第一数字定律
- 小概率定理
- 探索性数据分析(EDA)
- 数据审计
- 预定义审计
- 自定义审计
- 可视化审计
- 数据清洗
- 处理缺失值
- 冗余数据处理
- 噪声数据处理
- 数据变换
- 数据集成
- 基本类型
- 主要问题
- 其他预处理方法
- 数据脱敏
- 数据规约
- 数据统计
- 概率分布
- 正态分布
- 卡方分布
- t分布
- F分布
- 参数估计
- 点估计
- 区间估计
- 假设检验
- 基本分析方法
- 元分析方法
- 加权平均法
- 优化方法
- 机器学习
- 基本概念
- 机器学习活动
- 训练经验的选择
- 目标函数的选择:
- 目标函数的表示
- 函数逼近算法的选择
- 机器学习系统
- 主要类型
- 基于实例学习
- 概念学习
- 增强学习
数据预处理
数据质量
数据质量可以用三个基本指标来进行描述,分别是数据的正确性,完整性和一致性
- 数据的正确性是指数据是否实事求是的记录了客观现象
- 数据完整性是指数据是否未被授权篡改或者损坏,或授权用户的合法修改工作缺少必要的日志信息
- 数据一致性是指数据内容之间是否存在自相矛盾的现象。
关于数据质量的一些统计学规律
第一数字定律
第一数字定律描述的是自然数1-9的使用频率,公式为(
d
∈
{
1
,
2
,
3
,
4
,
5
,
6
,
7
,
8
,
9
}
din{1,2,3,4,5,6,7,8,9}
d∈{1,2,3,4,5,6,7,8,9})
P
(
d
)
=
log
10
(
d
+
1
)
−
log
10
(
d
)
P(d)=log_{10}(d+1)-log_{10}(d)
P(d)=log10(d+1)−log10(d)
其中数字1的使用最多接近三分之一,2为17.6%,3为12.5%,依次递减。
第一数字定律不但适用于各位数字,而且再多位的数也可用。 但是第一数字定律成立有以下两个条件:
- 数据不能经过认为修饰
- 数据不能使规律排序的,比如身份证号码等
小概率定理
小概率定理的基本思想是一个事件如果发生的概率很小,那么它在一次实验中几乎是不可能发生的,但是在多次重复试验中几乎是必然发生的,数学上称之为小概率原理。在统计学中,吧小概率事件看成在一次实验中是实际不可能发生的时间,一般认为等于或者小于0.05或0.01的概率称之为小概率
探索性数据分析(EDA)
探索性数据分析是指对已有的数据(特别是调查和观察得来的原始数据)在尽量少的先验假定下进行探索,并同坐作图,制表,方程拟合,计算特征量等手段探索数据的结构和规律的一种数据分析方法。当我们对数据中的信息没有足够的经验时,且不知道使用何种传统统计方法进行分析时,经常采用探索性数据分析方法进行数据分析。
探索性数据分析主要关注以下四个主题
-
耐抗性:指对数据的局部不良行为的非敏感性。它是探索性数据分析的主要目的,EDA强调数据分析的耐抗性。描述耐抗性常用的统计量可以分为以下四类
- 描述数据的集中趋势
中文 英文 含义 众数 Mode 一组数据中出现次数最多的数据 中位数 Median 医嘱数据排序后处于中间位置的变量值 四分位数 quartile 一组数据排序后处于25%和75%位置上的值 和 sum 一组数据相加后得到的值 平均值 Mean 一组数据相加后处于数据个数得到的值 - 描述数据的离散程度
中文 英文 含义 极差 Range 一组数据的最大值和最小值之差 标准差 standard deviation 描述变量相对于均值的扰动程度,及数据相对于均值的离散程度 方差 Variance 标准差的平方 极小值 Minimum 某变量所有取值的最小值 极大值 Maximum 某变量所有取值的最大值 - 描述数据的分布状态
中文 英文 含义 偏态 Skewness 描述数据分布的对称性,当“偏态系数”等于0时,对应数据的分布为对称,否则分布为非对称 峰态 Kurtosis 描述数据分布的平峰或者尖峰程度。当峰态系数等于0时,数据为标准正态分布,否则必正态分布更平或者更尖 - 描述数据的频度信息:是指数据中各项数据值出现的次数,出现的次数越多,频度越高
-
残差:是指是实际数据减去一个总括统计量或者模型拟合值时的残余部分
-
重新表达:是指找到合适的尺度或者数据表达方式进行一定的转换,使得有利于简化分析。 EDA强调的是,尽早考虑数据的原始尺度是否合适的问题。如果尺度不合适,重新表达成另一个尺度可能更有促进对称性,变异恒定性,关系直线性等。
-
启示:是指通过探索性分析,发现新的规律、问题和启迪,进而满足数据预处理和数据分析的需要
数据审计
数据审计是指按照数据质量的一般规律和评价方法对数据内容及其源数据进行审计,发现其中存在的问题。例如缺失值,噪声值,不一致值,不完整值。主要有以下几种方法
预定义审计
当来源数据带有自描述性验证规则时,通常采用预定义审计方法,可以通过查看系统的设计文档、源代码或测试方法找到这些验证规则。预定义审计中可以语句的数据或者方法有以下几个:
- 数据字典
- 用户自定义的完整约束条件
- 数据的自描述信息
- 属性的定义域或者值域
- 数据自包含的关联信息
自定义审计
当来源数据中缺少自描述性验证规则或自描述性验证规则无法满足数据预处理需要时通常采用自定义审计方法。验证规则一般分为以下两种:
- 变量规则:在单个或者多个变量上直接定义的验证规则,例如离群值的检查
- 函数规则:相对于简单变量规则,函数规则更为复杂,需要对变量进行函数计算
可视化审计
有时,很难用统计学和机器学习等方法发现数据中存在的问题。但是可以利用数据的可视化方法发现数据中的问题。
数据清洗
数据清洗是指在数据审计活动的基础上,将脏数据清洗城干净数据的过程。 脏数据是指数据审计过程中发现有问题的数据,例如含有缺失值,冗余内容,噪声数据等问题。
处理缺失值
缺失数据的处理主要涉及三个关键活动:识别缺失数据、分析缺失数据的特征、估计缺失数据对后续数据分析的影响、分析导致数据缺失的原因以及删除或插补缺失数据。
类型 | 特征 | 解决方法 |
---|---|---|
完全随机缺失(MCAR) | 某变量的缺失数据或其他任何观测或未观测变量都不相关 | 较为简单,可以进行忽略/删除/插值操作 |
随机缺失(MAR) | 某变量的缺失数据与其他观测相关,但与未观测变量不相关 | 同上 |
非随机缺失(NMAR) | 缺失数据不属于上述两种类型的 | 较为复杂,可以采取模型选择法和模式混合法 |
冗余数据处理
在识别出重复数据的基础上,需要对重复数据进行过滤操作。根据操作复杂度,重复过滤可以分为以下两种:
- 重复过滤
- 直接过滤:即对重复数据直接进行过滤操作,选择其中的任何数据项作为代表保留在在目标数据集中,过滤掉其他冗余数据
- 间接过滤:即对重复数据进行一定的校验,调整,合并操作之后,形成一条新记录。
- 条件过滤: 条件过滤是指根据某种条件进行过滤。
噪声数据处理
噪声数据是指测量变量中的随机错误或者偏差。噪声数据的主要表现形式有三种:错误数据、虚假数据以及异常数据。其中异常数据是指对数据分析结果具有重要影响的离群数据或者孤立数据。噪声数据的处理方法如下:
- 分箱:将数据集放入若干个“箱子”之后,用每个箱子的均值替换该箱内部的每个数据成员,进而达到噪声处理的目的
- 聚类:指通过聚类分析方法找出离群点/孤立点,并对其替换/删除处理。
- 回归:指采取回归分析方法对数据进行平滑处理,识别并去除噪声数据
数据变换
数据变换的类型
方法 | 目的 | 常用手段 |
---|---|---|
平滑处理 | 去除噪声数据 | 分箱,回归,聚类 |
特征构造 | 构造出新的特征 | 采用一致的特征构造出新的属性,用于描述客观现实 |
聚集 | 进行粗粒度计算 | 例如可以通过对日销售进行聚集,计算出月销售量 |
标准化 | 将特征属性(值)按比例缩放,使之落入一个特定的区间 | 常用的数据规范化方法有Min-Max标准化和z-score标准化 |
离散化 | 用区间或者概念标签表示数据 | 分箱,聚类,直方图分析,基于熵的离散化等 |
数据集成
在数据处理过程中,有时需要对来自不同数据源的数据进行集成处理,并集成后得到的数据集上进行数据处理
基本类型
- 内容集成:当目标数据集的结构与来源数据集的结构相同时,集成过程对来源数据集中的内容进行合并处理,即进行行拼接
- 结构集成:与内容集成不同的是,结构集成中目标数据集的结构与来源数据集不同。在结构集成中,目标数据集的结构为对个来源数据集的结构进行合并处理后的结果。即进行列拼接
主要问题
1.模式集成:主要涉及的问题是如何使来自多个数据源的现实世界的实体相互匹配,即实体识别问题
2. 数据冗余:若一个属性可以从其他属性中推导出来,那么这个属性就是冗余属性。此外,属性命名规则的不一致也会导致集成后的数据集中出现不一致的现象
3. 冲突检测与消除:对于一个现实世界实体来讲,可能存在来自不同数据源的属性值不同,产生这样问题的原因可能是表示的差异,比例尺度不同或者编码的差异等。
其他预处理方法
数据脱敏
数据脱敏是指在不影响数据分析结果的准确性的前提下,对原始数据进行一定的变换操作,对其他的个人敏感数据进行替换,过滤或者删除操作,降低信息的敏感性,减少相关主体的信息安全隐患和个人隐私风险。数据脱敏必须要满足以下三个要求:
- 单向性:数据脱敏操作必须具备单向性——从原始数据可以容易得到脱敏数据,但无法从脱敏数据推导出原始数据
- 无残留:数据脱敏操作必须保证用户无法通过其他途径还原敏感信息。
- 易于实现:数据脱敏操作所涉及的数据量大,所以需要的是易于计算的简单方法,而不是具有高时间复杂度和高空间复杂度计算方法。
数据规约
**数据规约是指在不影响数据的完整性和数据分析结果的正确性的前提下,通过减少数据规模的方式达到提升数据分析的效果与效率的目的。**常用的数据规约方法有两种:维规约和值规约
- 维规约:为了避免“维灾难”的产生,在不影响数据的完整性和数据分析结果的正确性的前提下,通常减少所考虑的随机变量或属性的个数,通常维规约采用线性代数的方法,如主成分分析法,奇异值分解和离散小波转换
- 值规约:在不影响数据的完整性和数据分析结果的正确性的前提下,使用参数模型(如简单线性回归模型和对数线性模型等)或非参数模型(如抽样,聚类和直方图等)的方法近似近似表示数据分布,进而实现数据规约的目的
数据统计
数据统计分析的类型
数据统计分析的类型
概率分布
正态分布
正态分布是描述连续性随机变量的最重要分布,也是经典统计推断的基础。正态分布的定义如下:
f
(
x
)
=
1
σ
2
π
e
−
1
2
σ
2
(
x
−
μ
)
2
f(x)=frac{1}{sigmasqrt{2pi}}e^{-frac{1}{2sigma_2}{(x-mu)^2}}
f(x)=σ2π1e−2σ21(x−μ)2
正态分布主要具有以下特征:
- 服从正态分布的随机变量的概率密度曲线图为“钟形曲线”
- 参数方差
σ
2
sigma^2
σ2和均值
$mu$
是决定一个正态分布的两个重要因素 - 服从正态分布的随机变量的概率规律如下:取与均值 μ mu μ临近值的概率最高,而取离均值 μ mu μ的越远的值的概率越小
- 曲线f(x)相对于均值 μ mu μ对称,尾端两个方向无限延伸,且理论上永远不会与x轴相交
- 正态曲线下的总面积为1
卡方分布
卡方分布是建立在正态分布概念基础之上的,主要刻画的是一个总体为正态分布时,所对应的样本方差的分布情况,其定义如下
设总体服从正太分布
X
∼
N
(
μ
,
σ
2
)
,
X
1
,
X
2
.
.
.
.
,
X
N
Xsim N(mu,sigma^2),X_1,X_2....,X_N
X∼N(μ,σ2),X1,X2....,XN为来自该正态总体的样本,则样本方差$S^2$
的分布为
(
n
−
1
)
S
2
σ
2
∼
χ
2
(
n
−
1
)
frac{(n-1)S^2}{sigma^2} sim chi^2(n-1)
σ2(n−1)S2∼χ2(n−1)
式中,将
χ
2
(
n
−
1
)
chi^2(n-1)
χ2(n−1)称为自由度为n-1的卡方分布
t分布
在数据分析中,当总体标准差为未知数时,可以采用t分布——用样本标准差S代替总体标准差 σ sigma σ,由样本平均数推断总体平均数及两个小样本之间的显著性检验
设
X
1
,
X
2
.
.
.
.
,
X
n
−
1
X_1,X_2....,X_{n-1}
X1,X2....,Xn−1是来自正态总体
X
∼
N
(
μ
,
σ
2
)
X sim N(mu,sigma^2)
X∼N(μ,σ2)的一个样本
n
(
X
‾
−
μ
)
S
∼
t
(
n
−
1
)
frac{sqrt{n}(overline{X}-mu)}{S} sim t(n-1)
Sn(X−μ)∼t(n−1)
t分布具有以下特征:
- 当t>=2,t分布的数学期望E(t)=0
- 当n>=3,t分布的方差 D ( t ) = n n − 2 D(t)=frac{n}{n-2} D(t)=n−2n。
- 与标准正态分布的相似性——均为单峰偶函数,区别在于t分布的密度函数在两侧的尾部比标准正态分布宽一些,t分布的方差比标准正态分布大一些。在实际应用中,当n>=0,t分布于标准正态分布非常接近
F分布
F分布也是建立在正态分布的基础之上的,刻画的是两个总体均为正态分布式,这两个总体的样本差之间的比例的分布情况,主要用于方差分析和回归方程的显著性检验之中,F分布的定义如下:
设
X
1
,
X
2
.
.
.
.
,
X
n
1
X_1,X_2....,X_{n1}
X1,X2....,Xn1是来自正态总体
X
∼
N
(
μ
1
,
σ
1
2
)
X sim N(mu_1,sigma^2_1)
X∼N(μ1,σ12)的一个样本,设
Y
1
,
Y
2
.
.
.
.
,
Y
n
2
Y_1,Y_2....,Y_{n2}
Y1,Y2....,Yn2是来自正态总体
Y
∼
N
(
μ
2
,
σ
2
2
)
Y sim N(mu_2,sigma^2_2)
Y∼N(μ2,σ22)的一个样本。且X与Y相互独立,则:
s
x
2
/
s
y
2
σ
x
2
/
σ
y
2
∼
F
(
n
1
−
1
,
n
2
−
1
)
frac{s^2_x/s^2_y}{sigma_x^2/sigma_y^2}sim F(n_1-1,n_2-1)
σx2/σy2sx2/sy2∼F(n1−1,n2−1)
我们将
F
(
n
1
−
1
,
n
2
−
1
)
F(n_1-1,n_2-1)
F(n1−1,n2−1)称为第一自由度为
n
1
−
1
n_1-1
n1−1,第二自由度为
n
2
−
1
n_2-1
n2−1的F分布
另外F分布与t分布的关系是,当随机变量X服从t(n)分布,则 X 2 X^2 X2服从F(1,n)的F分布
参数估计
在数据科学中,有时需要通过样本对总体进行推断分析,常用的推断方法有两种:参数估计和假设检验,但是二者的推断思路是有区别的:
点估计
点估计的基本思路是先从总体中抽取一个样本,然后根据该样本的统计量对总体的未知参数做出一个数值点的估计,例如,用样本均值 x ‾ overline{x} x作为总体均值 μ mu μ的估计值。 值得注意的是:点估计并没有给出估计值接近总体未知参数程度的信息。 点估计的具体实现方法有:矩估计法,顺序统计量法,最大似然法,最小二乘法
区间估计
区间估计是在点估计的基础上,给出总体参数落在某一个区间的概率,此区间就是根据一个样本的观察值给出的总体参数的估计范围,可通过样本统计量的加减抽样误差的方法计算
区间估计有以下两个重要指标:
- 置信区间是指由样本统计量构造的总体参数的估计区间。
- 置信水平是指总体位置参数落在置信区间之内的概率,表示为 ( 1 − α ) % (1-alpha)% (1−α)% 。其中 α alpha α为显著性水平,即总体参数未在区间的概率。
在参数估计中,用于估计总体某一采纳数的随机变量成为估计量。判断估计量的优良性的基本准则有以下三个:
- 无偏性:估计量的数学期望等于被估计的总体参数
- 有效性:一个方差较小的无偏估计量称为一个更有效的估计量。
- 一致性:随着样本容量的增大,估计量越来越接近被估计的总体参数。
假设检验
假设验证方法主要以小概率原理为基础,采用的是逻辑反证法。
基本流程如下:
假设检验方法分为两种类型:参数假设检验和非参数假设检验,二者的主要区别在于应用前提以及检验统计的设计方法的不同。
基本分析方法
元分析方法
在数据分析任务重,并不是所有的统计分析工作都是有自己完成,有时需要在他人的统计结果上进行二次分析。在这种情况下,需要的是另一种统计分析方法——元分析法
加权平均法
加权平均法主要是用于对一同一个样本的同类研究结果的元分析
加权平均法是指将各数值乘以相应的权数,然后求和得到总体值,再除以总的单位数的一种方法。 具体的讲,元分析中常用的权重计算方法有以下两种:
- 权重大小加权方法:一般采用样本大小为依据进行加权,具体公式如下:
w i = x i ∑ j = 1 k x j w_i=frac{x_i}{sum_{j=1}^{k}x_j} wi=∑j=1kxjxi
式中,$w_i$
代表的是第i个变量$x_i$
的权重,k为变量的个数。 - 逆方差加权方法:具体计算公式如下
w i = ∑ i y i σ 2 ∑ i 1 σ 2 w_i=frac{sum_i{frac{y_i}{sigma^2}}}{sum_{i}frac{1}{sigma^2}} wi=∑iσ21∑iσ2yi
式中,$y_i$
为第i个分析数据集,其对应的方差为$sigma^2$
优化方法
优化方法是从多个备选方案中挑选或者推导出一个最优方案的方法,其主要理论基础来源于运筹学,主要包括以下四种:
- 线性规划:主要研究线性约束条件下的线性目标函数的极值问题的数学理论和方法
- 多目标规划:主要研究多个目标函数在给定区域上的最优化。求解多目标规划的方法主要有以下几种:
- 化多为少法:吧多目标转化为比较容易求解答单目标或者双目标。如主要目标法,线性加权法,理想点法等
- 分层序列法:把目标按照其重要性给出一个序列,每次都在钱一个目标最优解集内求下一个目标最优解,直到求出共同的最优解。
- 层次分析法:一种定性与定量相结合的多目标决策和分析方法,对于目标结构复杂且缺乏必要的数据的情况更为适用。
- 动态规划:求解决策过程最优化的数学方法。动态规划一般可分为线性,区域,树形和背包动态规划四种基本类型。动态规划的基本步骤如下
- 确定问题的决策对象
- 对决策过程划分阶段
- 对各阶段确定状态变量
- 根据状态变量确定费用函数和目标函数
- 建立各阶段状态变量的转移过程,确定状态转移方程
机器学习
基本概念
-
机器学习是指计算机能够模拟人的学习行为,通过学习获取知识和技能,不断改善性能,实现自我完善
-
如果一个计算机系统能够给在完成某一类任务T的性能P能够随着经验E而改进,则称该系统在从经验E中学习,并将这个系统成为一个学习系统
机器学习活动
训练经验的选择
训练经验的选择需要注意以下问题:
- 训练经验能够为系统的决策提供直接或者间接的反馈
- 直接学习:机器从直接经验中学习,例如TD-Gammon系统中,利用一个有各种棋盘状态和相应的正确走子组成的数据集作为训练经验,并然机器从直接训练中学习
- 间接学习:机器从间接经验中学习。例如可以找到一个由过去对弈序列及其胜负结果组成的数据集作为训练经验,炳然机器通过评估每一个走子对最终结果的贡献度的方式间接的达到学习的目的
- 训练经验能够被学习系统控制
- 不控制:可以有施教者决策何种棋盘走势以及其正确走步
- 部分控制:也可以由机器感到为难的棋盘走势时,才向施教者询问其正确走步
- 完全控制
- 训练集是否与实际数据集具有相似的分布
目标函数的选择:
学习系统的目的是改进在完成某一类任务T时的性能P, 但是我们通常把这个一个目的转换成为对某目标函数的学习
总之,可以把机器学习的任务归结为发现目标函数的可操作性描述,但是现实生活中,确定学习目标函数是一件非常困难的任务,无法找到准确的目标函数。因此,一般采用近似函数逼近。仅希望学习到一个“近似的目标函数”,所以目标函数的学习算法通常被称为函数逼近算法
目标函数的表示
目标函数的表示是指它的近似函数的表示方法,在实际工作中,目标函数的表示可以采用多种方法,不同表示方法的表达能力可能不同。一般情况下, 越是表达能力强的方法越能接近理想的目标函数,但也需要更多的训练数据集来确定近似函数的参数
函数逼近算法的选择
目标函数选择的关键是在于找出确定系数的算法——函数逼近算法。训练近似函数中的系数$w_i$
,可以通过以下两个步骤完成:
- 估计训练值:从间接训练经验中提取形如(b,
$V_{train}(b)$
)的直接训练样本,其中$V_{train}(b)$
称为训练值,即V(b)的估计值。 - 调整权值:用一组(b,
$V_{train}(b)$
)样本调节$w_i$
的值,使之与训练达到最好的匹配。一种常用的方法是吧最佳的假设定义为使用训练值和假设预测的值之间的误差平方和最小
E ≡ ∑ ( b , V t r a i n ( b ) ) ∈ t r a i n s e t ( V t r a i n ( b ) − V ^ ( b ) ) 2 Eequivsum_{(b,V_{train}(b))in{trainset}}{(V_{train}(b)-hat{V}(b))^2} E≡(b,Vtrain(b))∈trainset∑(Vtrain(b)−V^(b))2
机器学习系统
主要类型
基于实例学习
基于实例学习的基本思路是事先将训练样本存储下来,然后每当遇到一个新增查询实例时,学习系统分析此新增实例与之前存储的实例之间的关系,并据此吧一个目标函数值赋值给新增实例。
可见,基于实例学习方法的特点是将从实例中泛化工作推迟到必须分类新的实例时,并未不同的待分类查询实例建立不同的目标函数逼近。基于实例学习方法包括最邻近发,局部加权回归和基于案例的推理等
概念学习
概念学习的本质是根据布尔函数的输入/输出训练样本中推算出该布尔函数。也就是说概念学习主要解决的是“在已知的样本集合以及每个样本是否属于某一个概念的标注的前提下,推断出该概念的一般定义”的问题
搜索策略的选择是概念学习的核心问题之一,为了便于假设控件的搜索,Ibanez定义假设的一般到特殊偏序解雇,具体方法有以下几种:
- Find-S算法:使用一般到特殊序,在偏序结构的一个分支上执行一般到特殊搜索,以寻找到与样本一致的特殊假设。
- 候选消除算法:利用一般到特殊序,通过极大特殊假设集合,和极大一般假设集合计算“变型空间”
增强学习
增强学习主要研究如何协助自治agent的学习活动,进而达到选择最优动作的目的。增强学习中讨论的Agent需要具备与环境的交互能力和自治能力
- 状态:通常,将一个Agent的生存环境描述为某种可能的状态集合S
- 动作:Agent可执行的可能动作集合A。
- 回报:当在状态
$s_t$
下执行动作$a_t$
时,Agent收到一个的实值回报$r_t$
,表示此状态-动作转换的立即值 - 学习任务:Agent的任务是学习一个控制策略
$pi:Sto A$
,使回报综合的期望值最大,其中后面的汇报至随着他们的延迟指数减小
增强学习的基本任务是当Agent在其环境做出每个动作时,施教者会提供奖赏或惩罚信息,以表示结果状态的正确与否。 控制策略的学习问题形式化有多种表示方法,其中最常用的就是基于马尔科夫决策过程定义方法。
最后
以上就是多情龙猫为你收集整理的数据科学读书笔记数据预处理数据统计机器学习的全部内容,希望文章能够帮你解决数据科学读书笔记数据预处理数据统计机器学习所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复