概述
confidence intervals
- 1.基本概念
- 1.1 统计推断 statistical inferences
- 1.2 估计量和估计
- 1.3进行统计推断所需估计器的随机3个主要元素
- 2.参数估计
- 2.1 点估计 Point Estimation
- 2.2 区间估计 Interval Estimation
- 2.3 术语
- 3.置信区间
- 3.1 z-interval
- 3.2 t interval
- 3.3 p的的z区间:
- 4.Determining Sample Size
- 4.1determining sample size - μ
- 4.2determining sample size - p
1.基本概念
1.1 统计推断 statistical inferences
估计
- 点估计 point estimation
- 区间估计 interval estimation
假设检验
1.2 估计量和估计
估计量 estimator
- 估计器是用于估计未知参数值的任何统计量;它为随机变量。
估计 estimate
- 估计值是来自特定样本的估计值的数值;它提供了未知参数值的最佳猜测;它是固定的,而不是随机的
1.3进行统计推断所需估计器的随机3个主要元素
估计器的期望值
估计器的标准误差
估计器的抽样分布
2.参数估计
2.1 点估计 Point Estimation
是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。点估计虽然给出了未知参数的估计值,但是未给出估计值的可靠程度,即估计值偏离未知参数真实值的程度。
2.2 区间估计 Interval Estimation
给定置信水平,根据估计值确定真实值可能出现的区间范围,该区间通常以估计值为中心,该区间则为置信区间。。
▪所有区间估计量的一般公式为:Point estimator ± error bound
2.3 术语
Target parameter
- 是我们想要估计的未知总体参数
Confidence coefficient (1 – ????)
- 一个区间估计包含总体参数估计量是否重复使用一个非常大的次数
Confidence level: 100(1 – ????)%
- 置信系数用百分比表示
- 典型值是90%,95%,99%
????
- 目标参数不在区间内的概率
Error bound / margin of error
- 是我们愿意容忍的抽样误差
3.置信区间
“我们有95%的信心认为眼前这个样本统计值(可以是平均值、回归系数或净回归系数)的置信区间包含总体参数”
- 如果我们采用同一个抽样程序,从一个总体中抽到样本量相同的无数个样本,每个样本中得到一个样本统计值,每个样本统计值有一个置信区间,假设这无数个置信区间是百分之百,那么其中95%包括总体参数,我们有95%的信心认为眼前这个置信区间包括总体参数,也就是说,我们有95%的信心认为眼前这个置信区间包括总体参数是那95%中的一个。
3.1 z-interval
假设σ已知或总体呈正态分布
μ的Interval estimat:μ的区间估计值
μ的Interval estimator:
X
ˉ
±
Z
α
/
2
σ
n
bar{X}pm Z_{alpha/2}frac{sigma}{sqrt{n}}
Xˉ±Zα/2nσ
影响间隔宽度的因素-精度
L =置信区间的下界,U =置信区间的上界。
E =误差范围/误差范围
W =置信区间宽度
(U + L2)/2 =点估计量
(U - L2)/2= E,其中E为误差界
W = 2E
•标准差越大,W越大
•样本量越大,W越小
•置信水平越大,W越大
3.2 t interval
假设σ未知或总体呈正态分布
Interval estimator of μ:
X
ˉ
±
t
α
/
2
s
n
bar{X}pm t_{alpha/2}frac{s}{sqrt{n}}
Xˉ±tα/2ns其中自由度df=n-1
student’s t table
学生t分布的特征
▪它是基于这样的假设:感兴趣的人群是正常的,或接近正态的
▪它是连续分布和钟形对称的
▪没有一个t分布,而是一个t分布的“族”。都有相同的均值0;即,E(t) = 0。但其标准差随样本容量n的不同而不同。
▪确切的t分布的形状取决于一个参数称为自由度,????
▪Var(t) =v/(v−2)> 1,因此t分布在中心比标准正态分布更加分散和平坦。但随着n的增加,表示t分布的曲线趋于标准正态分布;即t∞= z
评估常态
▪正常分位数图/ QQ图:如果曲线是一条直线,那么它表示正常状态。
▪柱状图或茎叶图:检查柱状图是否有一个对称的钟形。
▪四分位范围应接近标准差的1.34898倍,即IQR≈1.34898s
3.3 p的的z区间:
假设满足二项式条件:
- 样本数据是计数的结果。
- 只有两种可能的结果。
- 每次试验成功的概率都是一样的
- 试验是独立的。
样本容量足够大;即n > 25, np > 5, nq > 5。这个条件允许我们调用中心极限定理,并使用标准正态分布,即z,来完成置信区间
interval estimator of p:
p
^
±
Z
α
/
2
p
^
q
^
/
n
hat{p}pm Z_{alpha/2}sqrt{hat{p}hat{q}/{n}}
p^±Zα/2p^q^/n
4.Determining Sample Size
4.1determining sample size - μ
为了确定所需的样本量,我们必须知道:
- 所需的水平的信任度(1 -α),这决定了临界值,Zα/ 2
- 误差范围(或误差限制)E
- 标准偏差σ
- 如果σ是未知的,可以通过选择一个实验样本,用样本标准差s估计σ
σ=range/4
E = Z α / 2 σ n ⟹ n = ( Z α / 2 σ E ) 2 E=Z_{alpha/2}frac{sigma}{sqrt n} Longrightarrow n=({frac{Z_{alpha/2}sigma}{E}})^2 E=Zα/2nσ⟹n=(EZα/2σ)2
4.2determining sample size - p
要确定p所需的样本量,你必须知道:
▪所需的水平的信心(1 -α),这决定了临界值,Zα/ 2
▪误差范围(或误差限制
▪感兴趣事件的真实比例,p
如果p是未知的,可以选择试验样品和估计与样本比例p或0.5
E
=
Z
α
/
2
p
q
n
⟹
n
=
p
q
(
Z
α
/
2
E
)
2
E=Z_{alpha/2}sqrt{frac{pq}{n}} Longrightarrow n=pq({frac{Z_{alpha/2}}{E}})^2
E=Zα/2npq⟹n=pq(EZα/2)2
最后
以上就是魁梧铃铛为你收集整理的统计基础(七)置信区间1.基本概念2.参数估计3.置信区间4.Determining Sample Size的全部内容,希望文章能够帮你解决统计基础(七)置信区间1.基本概念2.参数估计3.置信区间4.Determining Sample Size所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复