统计学基础(1) 数据描述性统计python实现
数据的集中趋势
众数:数据集中出现次数最多的类别或值
1
2
3
4
5
6
7
8import numpy as np#调用numpy函数 nums = [1,2,3,4,5,3,4,3] #numpy无法直接求得,故使用np.bincount方法返回了一个长度为nums最大值的列表, #列表中的每个值代表其索引位数值出现在nums中的次数, counts = np.bincount(nums) # 然后再使用np.argmax就能得到众数,注意:由于索引位数值从0开始,故只能使用在非负数数据集中 print("众数:",np.argmax(counts))
1
2众数: 3
中位数:
在数据集中拥有一半的数据高于这个值,一半低于这个值。
1
2
3nums = [1,2,3,4,5,6]#直接调用median函数即可 print("中位数:",np.median(nums))
1
2中位数: 3.5
分位数:
又叫分位点,指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数,四分位数,百分位数。
四分位数:表示第75 百分位数和第25 百分位数间的差值。
百分位数:表示一个数据集中,P%的值小于或等于第P百分位数,(100−P)% 的值大于或等于第P百分位数。
1
2
3nums = [1,2,3,4,5,6,7,8,9,10]#调用percentile函数求四分位数和中分位数 print("四分位数及中位数:",np.percentile(nums, (25, 50, 75), interpolation='midpoint'))
1
2四分位数及中位数: [3.5 5.5 7.5]
极差:
数据集中最大值和最小值间的差值。
1
2
3nums = [1,2,3,4,5,6,7,8,9,10] print("极差:",max(nums)-min(nums))
1
2极差: 9
平均数:
是最基本的位置估计量,均值等于所有值的总和除以值的个数。例如,集合{3, 5, 1, 2}的均值是(3 + 5 + 1 + 2)/4 = 11/4 = 2.75。一般使用符号x (读作“x拔”)表示总体中一个样本的均值。给定n 个数据值:x1, x2, …, xN,均值的计算公式为:
[外链图片转存失败(img-pkFfDw15-1563720979773)(attachment:image.png)]
1
2
3nums = [1,2,3,4]#直接调用mean函数即可这里仅求平均数 print("平均值",np.mean(nums))
1
2平均值 2.5
算术平均数:
算术平均数,又称均值,是统计学中最基本、最常用的一种平均指标,分为简单算术平均数、加权算术平均数。它主要适用于数值型数据,不适用于品质数据。算术平均数是加权平均数的一种特殊形式(特殊在各项的权重相等)。在实际问题中,当各项权重不相等时,计算平均数时就要采用加权平均数;当各项权相等时,计算平均数就要采用算术平均数。
[外链图片转存失败(img-UoresxKJ-1563720979775)(attachment:image.png)]
加权平均数:
各数值乘以相应的权重值,然后加总求和,再除以权重的总和。在计算加权均值时,要将每个值xi 乘以一个权重值wi,并将加权值的总和除以权重的总和。计算公式为:
[外链图片转存失败(img-X97Sx52G-1563720979776)(attachment:image.png)]
几何平均数:
几何平均数是对各变量值的连乘积开项数次方根。求几何平均数的方法叫做几何平均法。
简单几何平均数:
[外链图片转存失败(img-RTBKas2T-1563720979776)(attachment:image.png)]
加权几何平均数:
[外链图片转存失败(img-7H6ebexQ-1563720979776)(attachment:image.png)]
数据的离中趋势
数值型数据:方差、标准差、极差、平均差
方差:
对于n 个数据值,方差是对距离均值的偏差平方后求和,再除以n-1。
[外链图片转存失败(img-MmTRbw64-1563720979777)(attachment:image.png)]
1
2
3nums = [1,2,3,4,5,6,7,8,9,10] print("方差:", np.var(nums))
1
2方差: 8.25
标准差:
方差的平方根。
[外链图片转存失败(img-mcJ4nTzf-1563720979777)(attachment:image.png)]
1
2
3nums = [1,2,3,4,5,6,7,8,9,10] print("标准差:", np.std(nums))
1
2标准差: 2.8722813232690143
极差:
数据集中最大值和最小值间的差值。
1
2
3nums = [1,2,3,4,5,6,7,8,9,10] print("极差:",max(nums)-min(nums))
1
2极差: 9
平均差:
对数据值与均值间偏差的绝对值计算均值。
[外链图片转存失败(img-XWqr2n7q-1563720979778)(attachment:image.png)]
1
2
3
4
5
6
7
8
9
10
11import numpy nums = [1,2,3,4,5,6,7,8,9,10] N=len(nums) narray=np.array(nums) sum1=narray.sum() narray2=narray*narray sum2=narray2.sum() mean=sum1/N var=sum2/N-mean**2 print("平均差:",var)
1
2平均差: 8.25
顺序数据:四分位差
四分位差:
又称四分位距,第75 百分位数和第25 百分位数间的差值。
[外链图片转存失败(img-rtDrs65R-1563720979779)(attachment:image.png)]
1
2
3
4
5
6nums = [1,2,3,4,5,6,7,8,9,10] lower_q=np.quantile(nums,0.25,interpolation='lower')#下四分位数 higher_q=np.quantile(nums,0.75,interpolation='higher')#上四分位数 int_r=higher_q-lower_q#四分位距 print("下四分位数:",lower_q,"上四分位数",higher_q,"四分位距",int_r)
1
2下四分位数: 3 上四分位数 8 四分位距 5
分类数据:异种比率
异种比率
指的是总体中非众数次数与总体全部次数之比。换句话说,异众比率指非众数组的频数占总频数的比例。
[外链图片转存失败(img-hXBKIKYH-1563720979780)(attachment:image.png)]
1
2
3
4
5
6
7
8
9nums = [1,2,3,4,5,3,4,3] counts = np.bincount(nums) print("众数:",np.argmax(counts)) res=[] for one in nums: if one!=3: res.append(one) print("异种比率:",len(res)/len(nums))
1
2
3众数: 3 异种比率: 0.625
相对离散程度
离散系数:
又称变异系数,离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。
[外链图片转存失败(img-uk2khrdH-1563720979780)(attachment:image.png)]
1
2
3nums = [1,2,3,4,5,6,7,8,9,10] print('离散系数:',np.std(nums)/np.mean(nums))
1
2离散系数: 0.5222329678670935
分布的形状
偏态系数:
以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。
简单偏态系数:
[外链图片转存失败(img-XK7u0VZz-1563720979780)(attachment:image.png)]
加权偏态系数:
[外链图片转存失败(img-7pU0MewG-1563720979781)(attachment:image.png)]
1
2
3
4import stats as sts nums = [1,2,3,4,5,6,7,8,9,10,12,21,342,5423,132] print("偏度:",sts.skewness(nums))
1
2偏度: 3.1110045506794255
峰态系数:
利用四阶中心矩与σ4的比值作为衡量峰度的指标。
[外链图片转存失败(img-MKgqkxTD-1563720979781)(attachment:image.png)]
1
2
3nums = [1,2,3,4,5,6,7,8,9,10] print("峰度:",sts.kurtosis(nums))
1
2峰度: -1.561636363636364
最后
以上就是忧郁鸭子最近收集整理的关于统计学基础:数据描述性统计统计学基础(1) 数据描述性统计python实现的全部内容,更多相关统计学基础:数据描述性统计统计学基础(1)内容请搜索靠谱客的其他文章。
发表评论 取消回复