我是靠谱客的博主 忧郁鸭子,最近开发中收集的这篇文章主要介绍统计学基础:数据描述性统计统计学基础(1) 数据描述性统计python实现,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

统计学基础(1) 数据描述性统计python实现

数据的集中趋势

众数:数据集中出现次数最多的类别或值

import numpy as np#调用numpy函数
nums = [1,2,3,4,5,3,4,3]
#numpy无法直接求得,故使用np.bincount方法返回了一个长度为nums最大值的列表,
#列表中的每个值代表其索引位数值出现在nums中的次数,
counts = np.bincount(nums)
# 然后再使用np.argmax就能得到众数,注意:由于索引位数值从0开始,故只能使用在非负数数据集中
print("众数:",np.argmax(counts))
众数: 3

中位数:

在数据集中拥有一半的数据高于这个值,一半低于这个值。

nums = [1,2,3,4,5,6]#直接调用median函数即可
print("中位数:",np.median(nums))
中位数: 3.5

分位数:

又叫分位点,指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数,四分位数,百分位数。

四分位数:表示第75 百分位数和第25 百分位数间的差值。

百分位数:表示一个数据集中,P%的值小于或等于第P百分位数,(100−P)% 的值大于或等于第P百分位数。

nums = [1,2,3,4,5,6,7,8,9,10]#调用percentile函数求四分位数和中分位数
print("四分位数及中位数:",np.percentile(nums, (25, 50, 75), interpolation='midpoint'))
四分位数及中位数: [3.5 5.5 7.5]

极差:

数据集中最大值和最小值间的差值。

nums = [1,2,3,4,5,6,7,8,9,10]
print("极差:",max(nums)-min(nums))
极差: 9

平均数:

是最基本的位置估计量,均值等于所有值的总和除以值的个数。例如,集合{3, 5, 1, 2}的均值是(3 + 5 + 1 + 2)/4 = 11/4 = 2.75。一般使用符号x (读作“x拔”)表示总体中一个样本的均值。给定n 个数据值:x1, x2, …, xN,均值的计算公式为:
[外链图片转存失败(img-pkFfDw15-1563720979773)(attachment:image.png)]

nums = [1,2,3,4]#直接调用mean函数即可这里仅求平均数
print("平均值",np.mean(nums))
平均值 2.5

算术平均数:

算术平均数,又称均值,是统计学中最基本、最常用的一种平均指标,分为简单算术平均数、加权算术平均数。它主要适用于数值型数据,不适用于品质数据。算术平均数是加权平均数的一种特殊形式(特殊在各项的权重相等)。在实际问题中,当各项权重不相等时,计算平均数时就要采用加权平均数;当各项权相等时,计算平均数就要采用算术平均数。
[外链图片转存失败(img-UoresxKJ-1563720979775)(attachment:image.png)]

加权平均数:

各数值乘以相应的权重值,然后加总求和,再除以权重的总和。在计算加权均值时,要将每个值xi 乘以一个权重值wi,并将加权值的总和除以权重的总和。计算公式为:
[外链图片转存失败(img-X97Sx52G-1563720979776)(attachment:image.png)]

几何平均数:

几何平均数是对各变量值的连乘积开项数次方根。求几何平均数的方法叫做几何平均法。

简单几何平均数:
[外链图片转存失败(img-RTBKas2T-1563720979776)(attachment:image.png)]

加权几何平均数:
[外链图片转存失败(img-7H6ebexQ-1563720979776)(attachment:image.png)]

数据的离中趋势

数值型数据:方差、标准差、极差、平均差

方差:

对于n 个数据值,方差是对距离均值的偏差平方后求和,再除以n-1。
[外链图片转存失败(img-MmTRbw64-1563720979777)(attachment:image.png)]

nums = [1,2,3,4,5,6,7,8,9,10]
print("方差:", np.var(nums))
方差: 8.25

标准差:

方差的平方根。
[外链图片转存失败(img-mcJ4nTzf-1563720979777)(attachment:image.png)]

nums = [1,2,3,4,5,6,7,8,9,10]
print("标准差:", np.std(nums))
标准差: 2.8722813232690143

极差:

数据集中最大值和最小值间的差值。

nums = [1,2,3,4,5,6,7,8,9,10]
print("极差:",max(nums)-min(nums))
极差: 9

平均差:

对数据值与均值间偏差的绝对值计算均值。
[外链图片转存失败(img-XWqr2n7q-1563720979778)(attachment:image.png)]

import numpy
nums = [1,2,3,4,5,6,7,8,9,10]
N=len(nums)
narray=np.array(nums)
sum1=narray.sum()
narray2=narray*narray
sum2=narray2.sum()
mean=sum1/N
var=sum2/N-mean**2
print("平均差:",var)
平均差: 8.25

顺序数据:四分位差

四分位差:

又称四分位距,第75 百分位数和第25 百分位数间的差值。
[外链图片转存失败(img-rtDrs65R-1563720979779)(attachment:image.png)]

nums = [1,2,3,4,5,6,7,8,9,10]
lower_q=np.quantile(nums,0.25,interpolation='lower')#下四分位数
higher_q=np.quantile(nums,0.75,interpolation='higher')#上四分位数
int_r=higher_q-lower_q#四分位距
print("下四分位数:",lower_q,"上四分位数",higher_q,"四分位距",int_r)
下四分位数: 3 上四分位数 8 四分位距 5

分类数据:异种比率

异种比率

指的是总体中非众数次数与总体全部次数之比。换句话说,异众比率指非众数组的频数占总频数的比例。
[外链图片转存失败(img-hXBKIKYH-1563720979780)(attachment:image.png)]

nums = [1,2,3,4,5,3,4,3]
counts = np.bincount(nums)
print("众数:",np.argmax(counts))
res=[]
for one in nums:
if one!=3:
res.append(one)
print("异种比率:",len(res)/len(nums))
众数: 3
异种比率: 0.625

相对离散程度

离散系数:

又称变异系数,离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。
[外链图片转存失败(img-uk2khrdH-1563720979780)(attachment:image.png)]

nums = [1,2,3,4,5,6,7,8,9,10]
print('离散系数:',np.std(nums)/np.mean(nums))
离散系数: 0.5222329678670935

分布的形状

偏态系数:

以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。

简单偏态系数:
[外链图片转存失败(img-XK7u0VZz-1563720979780)(attachment:image.png)]

加权偏态系数:
[外链图片转存失败(img-7pU0MewG-1563720979781)(attachment:image.png)]

import stats as sts
nums = [1,2,3,4,5,6,7,8,9,10,12,21,342,5423,132]
print("偏度:",sts.skewness(nums))
偏度: 3.1110045506794255

峰态系数:

利用四阶中心矩与σ4的比值作为衡量峰度的指标。
[外链图片转存失败(img-MKgqkxTD-1563720979781)(attachment:image.png)]

nums = [1,2,3,4,5,6,7,8,9,10]
print("峰度:",sts.kurtosis(nums))
峰度: -1.561636363636364

最后

以上就是忧郁鸭子为你收集整理的统计学基础:数据描述性统计统计学基础(1) 数据描述性统计python实现的全部内容,希望文章能够帮你解决统计学基础:数据描述性统计统计学基础(1) 数据描述性统计python实现所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(54)

评论列表共有 0 条评论

立即
投稿
返回
顶部