我是靠谱客的博主 开放便当,最近开发中收集的这篇文章主要介绍9-信息熵与基尼系数,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

一、基尼系数是什么?

1)定义

    下面是摘自李航《统计学习方法》中基尼系数的定义,非常清晰。


2)基尼系数有什么意义?
    我们可以先来看一组数据

X的取值方案一方案二方案三方案四P的平方方案一方案二方案三方案四
类别一0.90.50.40.2p1^20.810.250.160.04
类别二0.10.50.30.2p2^20.010.250.090.04
类别三000.30.2p3^2000.090.04
类别四0000.2p4^20000.04
类别五0000.2p5^20000.04
基尼系数0.180.50.660.8总和0.820.50.340.2
总和1111基尼系数0.180.50.660.8

    由上图我们可以观察到,类别的个数是 方案一(2个) < 方案三(3个) < 方案四(4个) ,基尼系数为 方案一 < 方案三 < 方案四;而方案一和方案二类别个数相同,但方案一的类别集中度比方案二要高,而基尼系数为  方案一  <  方案二

    基尼系数的特质是:
1) 类别个数越少,基尼系数越低;    
2)类别个数相同时,类别集中度越高,基尼系数越低。
当类别越少,类别集中度越高的时候,基尼系数越低;当类别越多,类别集中度越低的时候,基尼系数越高。
【类别集中度是指类别的概率差距,0.9+0.1的概率组合,比起0.5+0.5的概率组合集中度更高】
二、熵
1)熵是什么?
下面是摘自李航《统计学习方法》中熵的定义。


2)怎样理解熵的意义?
我们可以先来看一组数据

X的取值方案一方案二方案三方案四P的平方方案一方案二方案三方案四
类别一0.90.50.40.2p1*(-lnp1)0.090.350.370.32
类别二0.10.50.30.2p2*(-lnp2)0.230.350.360.32
类别三000.30.2p3*(-lnp3)0.000.000.360.32
类别四0000.2p4*(-lnp4)0.000.000.000.32
类别五0000.2p5*(-lnp5)0.000.000.000.32
0.820.500.340.200.820.500.340.20 

 可以看到,这幅图跟基尼系数的图是差不多的。也就是熵和基尼系数都有着类似的特质,它们都可以用来衡量信息的不确定性。

最后

以上就是开放便当为你收集整理的9-信息熵与基尼系数的全部内容,希望文章能够帮你解决9-信息熵与基尼系数所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(38)

评论列表共有 0 条评论

立即
投稿
返回
顶部