我是靠谱客的博主 平淡犀牛,最近开发中收集的这篇文章主要介绍常用的统计学原理及案例,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

 
 

ae8df1739761e5a8dbe6bb3b508f76a6.gif

 
 
公众号后台回复“图书“,了解更多号主新书内容

     作者:冬至

     来源:首席数据科学家

 统计学相关的知识,是数据科学的重要基础之一。

之前咱们分享过很多数据应用相关的内容,从《用户画像》到《数据采集》、《BI系统》等等。今天开始系统分享一些和基础理论相关的内容,包括统计学、概率论等学科。

01

总体、样本与抽样

统计学,其实本质就是研究样本与总体的学科。

(1)关于总体

首先,什么是总体呢?

总体,就是我们想研究的对象的全体。比如,我们要研究淘宝的所有用户,那淘宝的所有7亿用户就是总体。总体用户中的每一个人,就是一个个体

如果总体是有限个,就是有限总体,无限个就是无限总体

对于总体,我们给出一个随机变量X,随机变量的分布就是总体分布

(2)关于样本

研究总体的过程中,我们就发现一个问题,总体的数量往往过多。比如针对淘宝网所有用户,想研究所有用户的满意度,咋办?要一个一个人全部调查一遍嘛?显然不现实。这时就有了抽样以及样本的价值。

什么是抽样?

简单来说,抽样就是将总体中取一部分。比如全部淘宝用户抽1000人,这1000人就是样本,抽取的过程就是抽样。1000人就是样本大小,也叫样本容量

对于抽了n个样本X1,X2,……Xn,我们通常用以下表示样本变量

048aa24934a9efe2f838a9924b969f5d.png

如果发生了抽样,那每个样本都有一个具体的值,比如样本X1的取值是x1,那我们就把x1叫观测值,全部样本的观测值则用以下表示:

97afa6170178d8d6b4919e976c1f2b24.png

总结而言,大写表示的是变量,小写表示的是确定的数值(因为已经抽取出来并测量了)。

(3)关于抽样

关于抽样,我们要求的是简单随机抽样。有以下几个要求:

  • 同分布。要求每个样本被抽到的机会都是均等的

  • 相互独立。抽到某个个体对其他个体被抽到是没有影响的。

当然了,简单随机抽样是比较理想的情况,实际操作中比较困难。

(4)样本的分布

由于样本的抽取是独立的,所以样本的概率函数就等于每个样本的联合概率分布。

02


统计量

了解了总体和样本,我们再看看看统计量。

(1)统计量的定义

首先看一下定义:不含任何未知参数的样本的函数,就叫统计量

说白了,统计量就是由我们取的样本、构造的一个不含未知参数的函数。函数可以是任意的,随意构造,只要保证不含未知参数即可(可以含已知参数)。

比如,我们求样本的和,求样本平方之后的和,这些都是统计量。

(2)常见统计量

这里介绍一下常见的统计量。

样本均值:

outside_default.png

样本方差(修正过的):

outside_default.png

注意,这里的样本方差是修正过的。细心的朋友应该也已经发现了,这里的系数分母是n-1(未修正的样本方差的分母是n,也是我们初中高中一直用的方差的定义)。修正的主要目的是为了使得样本方差是总体方差的无偏估计。关于无偏估计,后续再阐述。

样本标准差:

outside_default.png

样本K阶原点矩:

outside_default.png

当这里的k=1的时候,一阶原点矩就是均值。

样本K阶中心矩:


outside_default.png

当这里的k=2的时候,就是未修正的样本方差。

03


样本均值和方差的性质

上面讲到了很多统计量,用的比较多的,其实依旧是样本均值和方差。因此,针对样本均值和方差的一些性质,进行详细阐述。

912d1af2c47c8eae977aac8515464b7c.png

(1)样本均值的期望是总体均值

啥意思呢,举例说明。

假设全体7亿淘宝用户对网站的平均满意度是80分(这个是未知的),抽样了1000个淘宝用户,统计了这1000个用户每个人的满意度,并求均值。那这个样本均值的期望就应该等于80分。

(2)样本均值的方差是总体方差的n分之一

从这里,我们可以看出来。样本均值的方差比总体方差变小了。而且样本数量越大,均值的方差越小。为啥呢?

其实是这样。方差反映的是数据的波动程度。当我们选样本的数量越多的时候,那么越接近总体的数量,人数越多数据的波动性越小。这个道理也是比较容易理解的。

(3)样本方差的期望等于总体方差

这里具体证明过程就不展开了。

关于总体、样本、统计量相关的内容,就先介绍到这。下回继续分享抽样分布相关的内容,欢迎继续关注。

◆ ◆ ◆  ◆ ◆
麟哥新书已经在当当上架了,我写了本书:《拿下Offer-数据分析师求职面试指南》,目前当当正在举行活动,大家可以用相当于原价5折的预购价格购买,还是非常划算的:
 
 
数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。

管理员二维码:


猜你喜欢

● 卧槽!原来爬取B站弹幕这么简单
● 厉害了!麟哥新书登顶京东销量排行榜!
● 笑死人不偿命的知乎沙雕问题排行榜

● 用Python扒出B站那些“惊为天人”的阿婆主!
● 你相信逛B站也能学编程

最后

以上就是平淡犀牛为你收集整理的常用的统计学原理及案例的全部内容,希望文章能够帮你解决常用的统计学原理及案例所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(49)

评论列表共有 0 条评论

立即
投稿
返回
顶部