统计学②——概率分布（几何，二项，泊松，正态分布）

263 阅读 0 评论 174 点赞

我是靠谱客的博主专一奇异果，这篇文章主要介绍统计学②——概率分布（几何，二项，泊松，正态分布），现在分享给大家，希望可以做个参考。

统计学系列目录（文末有大奖赠送）：
统计学①——概率论基础及业务实战
统计学③——总体与样本
统计学④——置信区间
统计学⑤——假设验证

概率分布描述了一个给定变量的所有可能取值结果的概率，历史上伟大的数学家们经过大量实验发现了一些很特殊的概率分布，比如几何，二项，泊松，正太分布等，这些分布在日常生活中很常见，且概率，期望和方差都有非常简便的算法。

一、几何分布

如果你碰见了这种情况：
a. 要进行一系列独立实验
b. 每一次实验既有成功的可能，也有失败的可能，且单次实验成功概率相同
c. 你感兴趣的是，为了取得第一次成功需要进行多少次实验
比如保龄球要玩多少次才能一下打倒10个？

如果你所求的概率的情况满足这几个条件，就可以用几何分布来帮你速战速决。
变量X表示为了取得第一次成功所需要进行的实验次数，如果一个变量X符合几何分布，且单次成功的概率为p，则可以写作:
在这里插入图片描述
几何分布图像如下：

看似有违直觉，但是实际上可能性最大的结果就是：仅需一次就成功；比如驾照考试，不管一个人的成功率是多少，一次就过的可能性对于他个人而言确实是最大的

①X取特定值r的概率计算公式（q = 1-p，为失败的概率）：
在这里插入图片描述
②X取值在某个范围的概率计算公式

有了概率计算公式，我们就不必要为了得到概率分布而计算每一种结果的概率，关键在于通过这个公式可以描述每一种可能结果

③ 几何分布的期望和方差
在这里插入图片描述
二、二项分布
二项分布之前先来了解下排列和组合
1、排列和组合
① 排列指的是选取对象并关注对象的排位顺序
如果求n个对象的可能排位方式，则计算为：
n! = n*(n-1)*(n-2)……3*2*1
如果从n个对象中取r个进行排位，则计算为：

② 组合是选取对象但不关注对象的排位顺序
如果为n个对象排位，其中第一类对象有k个，第二类对象有j个，第三类对象有m个……则排位计算为：
在这里插入图片描述
如果从n个对象中选取r个对象的选取方式的数目，这时不必知道对象的确切顺序

排位比组合多，除非只有一个对象

2、二项分布
a. 你正在进行一系列实验
b. 每一次都存在成功和失败的可能，且概率一样
c. 你想知道在一定区间内能成功多少次
比如玩了10把保龄球，有几把能打倒10个？

这就是典型二项分布的情况，与几何分布差别在于，你不是想知道多少次才成功的概率，而是想知道会有多少次成功。
X 表示 n次实验中成功次数，如果一个变量X符合二项分布且成功的概率为p，可以写成
在这里插入图片描述
二项分布图如下，根据n和r的不同，二项分布的形状会发生变化，p越接近于0.5，则图像越对称，p小于0.5，图像向右偏斜

① 当X取特定值 r 时，概率计算公式为（q=1-p)：

② 当X取特定范围时，需要将范围内所有的X取值概率相加
③ 二项分布的期望和方差
在这里插入图片描述

三、泊松分布

在遇到独立事件时（例如机器在给定区间内发生故障），若已经λ（给定时间区间内事件发生的平均次数）且你感兴趣的是一个特定时间区间内的发生次数，这时就可以用泊松分布。
说起来有点绕，其实就是知道一个平均值，求其余值的概率，比如一个月平均要吃5顿火锅，那这个月吃1顿，2顿，3顿等的概率。
令X是实际发生的次数，如果变量X符合泊松分布，且平均发生次数或发生率为λ，则
在这里插入图片描述
① 概率计算如下：

② 泊松分布的期望和方差

③ 如果两个独立事件A,B都符合泊松分布

四、正态分布

前面三种提到的都是离散变量的概率分布，如果X取值是连续值时，又该如何计算概率呢？
概率密度函数来描述连续变量的概率分布，概率密度是一条线，线与横坐标形成的面积就是概率，一般通过积分计算而得
对于离散变量概率，我们关注的是特定数值的概率，而连续概率分布，我们更关心的是取得一个特定范围的概率。
正态分布具有钟形曲线，且曲线对称，中央的概率密度最大，直偏离中心概率密度越小。正态分布通过均值μ和方差σ^{2定义，μ代表曲线的中心位置，σ}2代表曲线的分散性，越大则曲线越扁平。如果一个连续变量X符合均值为μ，方差为 σ^2的正态分布，则通常写作：
在这里插入图片描述

日常生活中有很多现象均符合正态分布，比如身高，年龄，财富，体重的分布等。当得知X符合正态分布后，如何计算X在[a,b]范围内的概率呢？

我们有一张标准概率表，给出了X~N(0,1)的概率，要做的就是将X标准化为N(0,1)的分布后，再通过查表就得到概率，标准化公式为：
在这里插入图片描述

五、各种分布之间的关系

① 当二项分布中n>50且p<0.1时，二项分布X~B(n,p)可以近似为泊松分布X-Po(np)
② 当二项分布中np>5且nq>5时，二项分布X~B(n,p)可以近似为正态分布X-N(np,npq)
③ 当泊松分布中λ>15时，泊松分布X~Po(λ)可以近似为正态分布X-N(λ,λ)
在这里插入图片描述