我是靠谱客的博主 魁梧铃铛,最近开发中收集的这篇文章主要介绍统计基础(七)置信区间1.基本概念2.参数估计3.置信区间4.Determining Sample Size,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

confidence intervals

  • 1.基本概念
    • 1.1 统计推断 statistical inferences
    • 1.2 估计量和估计
    • 1.3进行统计推断所需估计器的随机3个主要元素
  • 2.参数估计
    • 2.1 点估计 Point Estimation
    • 2.2 区间估计 Interval Estimation
    • 2.3 术语
  • 3.置信区间
    • 3.1 z-interval
    • 3.2 t interval
    • 3.3 p的的z区间:
  • 4.Determining Sample Size
    • 4.1determining sample size - μ
    • 4.2determining sample size - p

1.基本概念

在这里插入图片描述

1.1 统计推断 statistical inferences

估计

  • 点估计 point estimation
  • 区间估计 interval estimation

假设检验

1.2 估计量和估计

估计量 estimator

  • 估计器是用于估计未知参数值的任何统计量;它为随机变量。

估计 estimate

  • 估计值是来自特定样本的估计值的数值;它提供了未知参数值的最佳猜测;它是固定的,而不是随机的

1.3进行统计推断所需估计器的随机3个主要元素

估计器的期望值
估计器的标准误差
估计器的抽样分布
在这里插入图片描述

2.参数估计

2.1 点估计 Point Estimation

是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。点估计虽然给出了未知参数的估计值,但是未给出估计值的可靠程度,即估计值偏离未知参数真实值的程度。

2.2 区间估计 Interval Estimation

给定置信水平,根据估计值确定真实值可能出现的区间范围,该区间通常以估计值为中心,该区间则为置信区间。。
▪所有区间估计量的一般公式为:Point estimator ± error bound
在这里插入图片描述

2.3 术语

Target parameter

  • 是我们想要估计的未知总体参数

Confidence coefficient (1 – ????)

  • 一个区间估计包含总体参数估计量是否重复使用一个非常大的次数

Confidence level: 100(1 – ????)%

  • 置信系数用百分比表示
  • 典型值是90%,95%,99%

????

  • 目标参数不在区间内的概率

Error bound / margin of error

  • 是我们愿意容忍的抽样误差

3.置信区间

“我们有95%的信心认为眼前这个样本统计值(可以是平均值、回归系数或净回归系数)的置信区间包含总体参数”

  • 如果我们采用同一个抽样程序,从一个总体中抽到样本量相同的无数个样本,每个样本中得到一个样本统计值,每个样本统计值有一个置信区间,假设这无数个置信区间是百分之百,那么其中95%包括总体参数,我们有95%的信心认为眼前这个置信区间包括总体参数,也就是说,我们有95%的信心认为眼前这个置信区间包括总体参数是那95%中的一个。

3.1 z-interval

假设σ已知或总体呈正态分布
μ的Interval estimat:μ的区间估计值
μ的Interval estimator: X ˉ ± Z α / 2 σ n bar{X}pm Z_{alpha/2}frac{sigma}{sqrt{n}} Xˉ±Zα/2n σ

影响间隔宽度的因素-精度
L =置信区间的下界,U =置信区间的上界。
E =误差范围/误差范围
W =置信区间宽度

(U + L2)/2 =点估计量
(U - L2)/2= E,其中E为误差界
W = 2E

•标准差越大,W越大
•样本量越大,W越小
•置信水平越大,W越大
在这里插入图片描述
在这里插入图片描述

3.2 t interval

假设σ未知或总体呈正态分布
Interval estimator of μ: X ˉ ± t α / 2 s n bar{X}pm t_{alpha/2}frac{s}{sqrt{n}} Xˉ±tα/2n s其中自由度df=n-1
student’s t table

学生t分布的特征
▪它是基于这样的假设:感兴趣的人群是正常的,或接近正态的
▪它是连续分布和钟形对称的
▪没有一个t分布,而是一个t分布的“族”。都有相同的均值0;即,E(t) = 0。但其标准差随样本容量n的不同而不同。
▪确切的t分布的形状取决于一个参数称为自由度,????
▪Var(t) =v/(v−2)> 1,因此t分布在中心比标准正态分布更加分散和平坦。但随着n的增加,表示t分布的曲线趋于标准正态分布;即t∞= z
在这里插入图片描述
评估常态
▪正常分位数图/ QQ图:如果曲线是一条直线,那么它表示正常状态。
▪柱状图或茎叶图:检查柱状图是否有一个对称的钟形。
▪四分位范围应接近标准差的1.34898倍,即IQR≈1.34898s
在这里插入图片描述

3.3 p的的z区间:

假设满足二项式条件:

  • 样本数据是计数的结果。
  • 只有两种可能的结果。
  • 每次试验成功的概率都是一样的
  • 试验是独立的。

样本容量足够大;即n > 25, np > 5, nq > 5。这个条件允许我们调用中心极限定理,并使用标准正态分布,即z,来完成置信区间
interval estimator of p: p ^ ± Z α / 2 p ^ q ^ / n hat{p}pm Z_{alpha/2}sqrt{hat{p}hat{q}/{n}} p^±Zα/2p^q^/n
在这里插入图片描述

4.Determining Sample Size

在这里插入图片描述

4.1determining sample size - μ

为了确定所需的样本量,我们必须知道:

  • 所需的水平的信任度(1 -α),这决定了临界值,Zα/ 2
  • 误差范围(或误差限制)E
  • 标准偏差σ
  • 如果σ是未知的,可以通过选择一个实验样本,用样本标准差s估计σ
    σ=range/4
    E = Z α / 2 σ n ⟹ n = ( Z α / 2 σ E ) 2 E=Z_{alpha/2}frac{sigma}{sqrt n} Longrightarrow n=({frac{Z_{alpha/2}sigma}{E}})^2 E=Zα/2n σn=(EZα/2σ)2
    在这里插入图片描述

4.2determining sample size - p

要确定p所需的样本量,你必须知道:
▪所需的水平的信心(1 -α),这决定了临界值,Zα/ 2
▪误差范围(或误差限制
▪感兴趣事件的真实比例,p
如果p是未知的,可以选择试验样品和估计与样本比例p或0.5
E = Z α / 2 p q n ⟹ n = p q ( Z α / 2 E ) 2 E=Z_{alpha/2}sqrt{frac{pq}{n}} Longrightarrow n=pq({frac{Z_{alpha/2}}{E}})^2 E=Zα/2npq n=pq(EZα/2)2
在这里插入图片描述
在这里插入图片描述

最后

以上就是魁梧铃铛为你收集整理的统计基础(七)置信区间1.基本概念2.参数估计3.置信区间4.Determining Sample Size的全部内容,希望文章能够帮你解决统计基础(七)置信区间1.基本概念2.参数估计3.置信区间4.Determining Sample Size所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(38)

评论列表共有 0 条评论

立即
投稿
返回
顶部