概述
数据分析面试系列
统计的基础知识-1
1.概率知识点回顾
- 概率:
发生事件A的概率 P(A) = 发生事件A的数目 / 所有结果的数目
概率= 用数值来表示某件事发生的可能性
- 先验概率与后验概率:
【先验概率】是 以全事件为背景下,A事件发生的概率,P(A|Ω)
【后验概率】是 以新事件B为背景下,A事件发生的概率, P(A|B)
全事件一般是统计获得的,所以称为先验概率,没有实验前的概率
新事件一般是实验,如试验B,此时的事件背景从全事件变成了B,该事件B可能对A的概率有影响,那么需要对A现在的概率进行一个修正,从P(A|Ω)变成 P(A|B),
所以称 P(A|B)为后验概率,也就是试验(事件B发生)后的概率
- 事件
对立事件 A’: P(A’) = 1 - P(A)
互斥事件:如果两个事件是互斥事件,两个事件不可能同时发生
独立事件:不受过去事件的影响
相关事件: 受过去事件的影响。多个独立事件的概率:P(AB)=P(A)*P(B)
- 条件概率:事件A在另外一个事件B已经发生下发生的概率
事件A***与***事件B的概率等于在***事件A发生的条件下,事件B发生的概率***
p(A,B)=P(A)*P(B|A) =P(B)*P(A|B);
P(B|A)是A发生的条件下事件B发生的概率.
- 大数定律:
如果统计的数据足够大,那么事件出现的频率就能无限接近他的期望;期望=预期值 (期望的本质是概率的平均值)如果统计数据很少,那么时间就表现为各种极端事件,而这些情况都是偶然事件,跟它的期望值一点关系都没有。
- 贝叶斯定理:
给定条件x的情况下hypothesis H成立的概率
P(H|X)=P(H,X)/P(X)=P(X|H)*P(H)/P(X)
(贝叶斯决策树分析原理:
X:一个记录和已经标记的记录有相同的属性值
H:这个记录应该属于该标记类
求最大的P(Hi|X)->该记录分类为i类别:P(X|Hi)*P(Hi)/P(X)
分母P(X)一样的 ->求最大的P(X|Hi)*P(Hi)
预测:
P(Hi)=ni/N(所有记录中label为i的数目/总记录数目)
prod_{k=1}^{n}{P(X_kvbar H_i )}=prod_{k=1}^{n}frac{n_{ik}}{n_i}
k为属性数目,nik指未标记记录中第k个属性的值和标记为i的记录第k个属性的值相同的数目
)
- 中心极限定理(CLT)
中心极限定理指出,如果样本量足够大,则变量均值的采样分布将近似于正态分布,而与该变量在总体中的分布无关。即不管数据样本总体符合什么分布,样本的均值是符合正态分布的。
中心极限定理
1)任何一个样本的平均值将会约等于其所在总体的平均值。
(2)不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。
中心极限定理作用:
(1)在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体。
(2)根据总体的平均值和标准差,判断某个样本是否属于总体。
7.切比雪夫不等式
切比雪夫不等式
设随机变量X的数学期望E(X)=mu,方差D(X)=sigma ^{2},对任意的varepsilon >0,有
即
例题:
已知随机变量X的数学期望E(X)=100,方差D(X)=10,试估计X落在(80,120)内的概率
解:
由切比雪夫不等式
- 随机变量:
期望 :方差:
标准差:
- 样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;样本方差的算术平方根叫做样本标准差。样本方差和样本标准差都是衡量一个样本波动大小的量(数据稳定性),样本方差或样本标准差越大,样本数据的波动就越大。
标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。
- 线性变换:
基本概率保持不变,Y的新值其形式为aX+b,随机变量X发生的是线性变化
线性变换的通用公式:
- 认识独立观测值
如:在赌博机上玩多局赌局时,每一局称为一个事件,每一局的结果称为一个观测值,每一个观测值具有相同的期望和方差,但观测值(每一局收益)互有差别。如果用X代表赌博机收益的概率分布,则把第一个观测值称为 [公式] 把第二个观测值称为 [公式] ; [公式][公式] 的期望和方差相同,但互为不相干事件; [公式] 具有和X一样的概率。
要求出两局赌博机的期望和方差,实际上就是要求 X1+X2 的期望和方差
- 排列与组合:
如果要想在 n 个物品中,按顺序的选择 k 个物品,那么选择的方式总共有这么多种:
如果要想在 n 个物品中,选择 k 个物品出来,选择的顺序无所谓,那么选择的方式总共有这么多种:
P 和 C 的本质区别在于:决策的顺序对结果有没有影响。
- 概率分布
1)在概率论和统计学中,随机变量是一个随机值的东西,比如“我看到的下一个人的身高”。给定一个随机变量X,我们想要一种描述它的值的方法。更重要的是,我们想要描述该变量获取特定值x的可能性。
2)数据可以分为离散的和连续的。
离散数据:顾名思义,只包含指定的值。例如,当你投骰子的时候,输出结果只可能是1、2、3、4、5或6,而不可能出现1.5或2.45。
连续数据:可以在给定的范围内取任何值。范围可以是有限的,也可以是无限的。例如,女孩的体重或身高、路程的长度。女孩的体重可以是54千克、54.5千克,或54.5436千克。
3)常见分布
- 伯努利分布
伯努利分布只有两种可能的结果,1(成功)和0(失败)。因此,具有伯努利分布的随机变量X可以取值为1,也就是成功的概率,可以用p来表示,也可以取值为0,即失败的概率,用q或1-p来表示。
来自伯努利分布的随机变量X的期望值如为:
E(X) = 1* p + 0*(1-p) = p
随机变量与二项分布的方差为:
V(X) = E(X²) – [E(X)]² = p – p² = p(1-p)
- 二项分布
二项式分布就是只有两个可能结果的分布,比如成功或失败、得到或者丢失、赢或败,每一次尝试成功和失败的概率相等。
每一次尝试都是独立的,因为前一次投掷的结果不能决定或影响当前投掷的结果。只有两个可能的结果并且重复n次的实验叫做二项式。二项分布的参数是n和p,其中n是试验的总数,p是每次试验成功的概率。
在上述说明的基础上,二项式分布的属性包括:
-
每个试验都是独立的。
-
在试验中只有两个可能的结果:成功或失败。
-
总共进行了n次相同的试验。
-
所有试验成功和失败的概率是相同的。 (试验是一样的)
符合二项分布,n次独立试验,记为
二项分布的图像如图所示:
- 正态分布
正态分布代表了宇宙中大多数情况的运转状态。大量的随机变量被证明是正态分布的。任何一个分布只要具有以下特征,则可以称为正态分布:
-
分布的平均值、中位数和模式一致。
-
分布曲线是钟形的,关于线 x = μ 对称。
-
曲线下的总面积为1。
-
有一半的值在中心的左边,另一半在右边。
正态分布与二项分布有着很大的不同。然而,如果试验次数接近于无穷大,则它们的形状会变得十分相似。
- 正态分布的第一个参数是均值
均值或平均值是正态分布的集中趋势,它决定了曲线峰值的位置。平均值的变化导致曲线沿x轴水平移动。
- 正态分布的第二个参数是标准差SD
标准差是正态分布变异性的量度,它决定了曲线的宽度。SD值的变化导致曲线变得更窄或更宽,并对曲线的高度产生反比例的影响。
更紧的曲线(较小的宽度)->更高的高度更宽的曲线(更高的宽度)->更短的高度
根据经验法则,我们可以确定正态分布曲线离均值标准差范围内的数据百分比。
让我们来看一个披萨外卖的例子。假设一家披萨餐厅的平均配送时间为30分钟,标准偏差为5分钟。根据经验法则,我们可以确定68%的交付时间在25-35分钟(30 +/- 5)之间,95%在20-40分钟(30 +/- 25)之间,99.7%在15-45分钟(30 +/-35)之间。
如前所述,正态分布根据参数值(平均值和标准差)有许多不同的形状。标准正态分布是正态分布的一个特例,均值为0,标准差为1。这个分布也称为Z分布/u分布。记为N(0,1)
遵循正态分布的随机变量X的值由下式给出:
公式中μ为平均数,σ为标准差,f(x)为正态分布函数。
正态分布的随机变量X的均值和方差由下式给出:
均值 -> E(X) = µ
方差 -> Var(X) = σ^2
其中,μ(平均)和σ(标准偏差)是参数。
为了便于描述和应用,常将正态变量作数据转换。将一般正态分布转化成标准正态分布。
若 服从标准正态分布,通过查标准正态分布表就可以直接计算出原正态分布的概率值。故该变换被称为标准化变换。
- 泊松分布
假设你在一个呼叫中心工作,一天里你大概会接到多少个电话?它可以是任何一个数字。现在,呼叫中心一天的呼叫总数可以用泊松分布来建模。这里有一些例子:
-
医院在一天内录制的紧急电话的数量。
-
某个地区在一天内报告的失窃的数量。
-
在一小时内抵达沙龙的客户人数。
当以下假设有效时,则称为“泊松分布”
-
任何一个成功的事件都不应该影响另一个成功的事件。
-
在短时间内成功的概率必须等于在更长的间内成功的概率。
-
时间间隔变小时,在给间隔时间内成功的概率趋向于零。
如果X符合泊松分布,且每个区间内平均发生 λ次,则记作
泊松分布的X由下式给出:
泊松分布图像如图:
- 各种分布之间的关系
伯努利与二项分布之间的关系
-
伯努利分布是具有单项试验的二项式分布的特殊情况。
-
伯努利分布和二项式分布只有两种可能的结果,即成功与失败。
-
伯努利分布和二项式分布都具有独立的轨迹。
泊松与二项式分布之间的关系
泊松分布在满足以下条件的情况下是二项式分布的极限情况:
-
试验次数无限大或n → ∞。
-
每个试验成功的概率是相同的,无限小的,或p → 0。
-
np = λ,是有限的。
正态分布关系
正态分布是在满足以下条件的情况下二项分布的另一种限制形式:
-
试验次数无限大,n → ∞。
-
p和q都不是无限小。
正态分布也是参数λ → ∞的泊松分布的极限情况。
- 协方差与相关系数
协方差:反应两个变量的共同变化程度,协方差为正,表示两个变量是同向变化的,协方差为负表示两个变量是反向变化的。值则表示同向或反向的程度。协方差的公式如下图:
公式简单翻译一下是:如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值(其实是求“期望”,但就不引申太多新概念了,简单认为就是求均值了)。
因为同方向变化的时候两个变量与均值的差的正负号是一样的,因此乘机一定为正。求期望后将每个时刻的乘机进行相加就可以正负抵消最后反应出综合变化方向以及程度。
相关系数:
用X、Y的协方差除以X的标准差和Y的标准差。相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。
作为一种特殊的协方差,它:
1、反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。
2、由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。
总结一下,对于两个变量X、Y,
当他们的相关系数为1时,说明两个变量变化时的正向相似度最大,即,你变大一倍,我也变大一倍;你变小一倍,我也变小一倍。也即是完全正相关(以X、Y为横纵坐标轴,可以画出一条斜率为正数的直线,所以X、Y是线性关系的)。
随着他们相关系数减小,两个变量变化时的相似度也变小,当相关系数为0时,两个变量的变化过程没有任何相似度,也即两个变量无关。
当相关系数继续变小,小于0时,两个变量开始出现反向的相似度,随着相关系数继续变小,反向相似度会逐渐变大。
当相关系数为-1时,说明两个变量变化的反向相似度最大,即,你变大一倍,我变小一倍;你变小一倍,我变大一倍。也即是完全负相关(以X、Y为横纵坐标轴,可以画出一条斜率为负数的直线,所以X、Y也是线性关系的)。
- 参数估计与假设检验
参考:
假设检验
假设检验的基本思想是概率性质的反证法。根据所考察问题的要求提出原假设和备择假设,为了检验原假设是否正确,先假定原假设是正确的情况下,构造一个小概率事件,然后根据抽取的样本去检验这个小概率事件是否发生。如果在一次试验中小概率事件竟然发生了,我们就怀疑原假设原假设的正确性,从而拒绝原假设如果在一次试验中小概率事件没有发生,则没有理由怀疑原假设原假设的正确性,因此接受原假设。
总结为:确定原假设 H0和备择假设 H1,使用一个检验统计量来表示 H0,利用这个统计量的分布和显著性水平来判断假设是否成立。根据检验统计量的不同,可以分为 Z 检验(正态分布), t 检验, χ 2 检验, F检验。
参数估计
假设检验具体例子理解
13.统计检验方法与原理
连续变量之间:皮尔逊相关系数、斯皮尔曼相关系数、肯德尔和谐系数
连续变量和分类变量之间:t检验、方差分析
分类变量之间:卡方独立性检验
1)T检验:
-
T检验(T-test)主要是为了比较数据样本之间是否具有显著性的差异。或者是否能从样本推论到整体
-
T检验的前提条件是假设样本服从或者近似服从正态分布,T检验是一种假设检验方法(假定总体的分布已知)。
-
针对不同的场景,主要有以下三种检验方法:
独立样本的T检验
主要用于定量数据和定类数据的差异关系研究,例如有一个班的学生数据,如果学生的成绩服从正太分布,想要研究身高和成绩的关系,就需要用到该方法,如果不服从正态分布,可采用MannWhitney检验。
单一样本的T检验
主要用于检验某单一的定量数据差异,例如一个班的成绩是否显著大于70分。同样需要满足正态分布的假设,若不满足可采用单样本Wilcoxon检验。
配对T检验
检验样本中配对数据的差异性,例如一个班上男、女生的成是否显著差异,不满足正态分布的话,可采用Wilcoxon检验。
2)F检验
F检验(F-test),最常用的别名叫做联合假设检验(英语:joint hypotheses test),此外也称方差比率检验、方差齐性检验。它是一种在零假设(null hypothesis, H0)之下,统计值服从F-分布的检验。其通常是用来分析用了超过一个参数的统计模型,以判断该模型中的全部或一部分参数是否适合用来估计母体。
计算过程如下:
计算得到的F值,再与对应F分布表查询,若大于表中的值,则接受原假设(两样本的方差相同),否则拒绝原假设
F分布:F分布:
F
=
U
/
n
1
V
/
n
2
F=frac{U/n_1}{V/n_2}
F=V/n2U/n1,记为 F(n1,n2),自由度为 (n1,n2), 其中
U
∼
χ
2
(
n
1
)
,
V
∼
χ
2
(
n
2
)
Usimchi^2(n_1),Vsimchi^2(n_2)
U∼χ2(n1),V∼χ2(n2) U,V相互独立。
3.卡方检验
卡方检验(chi-square test),也就是χ2检验,用来验证两个总体间某个比率之间是否存在显著性差异。
它的无效假设H0是:观察频数与期望频数没有差别。该检验的基本思想是:首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。计算样本数据的统计量,如果大于P值(说明发生了小概率实践)说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;否则就不能拒绝无效假设。
卡方分布:设 X1,X2,…Xn相互独立, 都服从标准正态分布N(0,1), 则称随机变量χ2=X12+X22+…+Xn2所服从的分布为自由度为 n 的χ2分布.其中参数n称为自由度(通俗讲,样本中独立或能自由变化的自变量的个数,称为自由度)
卡方分布的 期望E(χ2)=n,方差D(χ2)=2n
参考:
https://blog.csdn.net/weixin_45021185/article/details/95629935
显著性检验
显著性检验是用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法。
原理:
1)显著性检验(significance test)就是事先对总体分布做一个假设,然后用样本来判断这个假设。即判断样本与我们对总体所做的假设之间的差异。
2)把要检验的假设记作H0,称为原假设 (null hypothesis) ,与H0对立的假设记作H1,称为备择假设(alternative hypothesis) 。
- 在原假设为真时,决定放弃原假设,称为第一类错误,其出现的概率通常记作α;
- 在原假设不真时,决定不放弃原假设,称为第二类错误,其出现的概率通常记作β。
通常只限定犯第一类错误的最大概率α, 不考虑犯第二类错误的概率β。我们把这样的假设检验称为显著性检验, 概率α称为显著性水平。显著性水平是数学界约定俗成的,一般有α =0.05,0.025.0.01这三种情况。代表着显著性检验的结论错误率必须低于5%或2.5%或1%(统计学中,通常把在现实世界中发生几率小于5%的事件称之为“不可能事件”)。
根据原假设,选择检验方法,计算p值
p>0.05 接受原假设
p<0.05 拒绝原假设
最后
以上就是优雅信封为你收集整理的数据分析面试之统计的基础知识(持续更新)数据分析面试系列的全部内容,希望文章能够帮你解决数据分析面试之统计的基础知识(持续更新)数据分析面试系列所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复