9-信息熵与基尼系数

212 阅读 0 评论 140 点赞

我是靠谱客的博主开放便当，这篇文章主要介绍9-信息熵与基尼系数，现在分享给大家，希望可以做个参考。

一、基尼系数是什么？

1)定义

下面是摘自李航《统计学习方法》中基尼系数的定义，非常清晰。

2)基尼系数有什么意义？
我们可以先来看一组数据

由上图我们可以观察到，类别的个数是方案一(2个) < 方案三(3个) < 方案四(4个) ，基尼系数为方案一 < 方案三 < 方案四；而方案一和方案二类别个数相同，但方案一的类别集中度比方案二要高，而基尼系数为方案一 < 方案二

基尼系数的特质是：

1) 类别个数越少，基尼系数越低;

2)类别个数相同时，类别集中度越高，基尼系数越低。

当类别越少，类别集中度越高的时候，基尼系数越低；当类别越多，类别集中度越低的时候，基尼系数越高。

【类别集中度是指类别的概率差距，0.9+0.1的概率组合，比起0.5+0.5的概率组合集中度更高】

二、熵
1）熵是什么？
下面是摘自李航《统计学习方法》中熵的定义。

2）怎样理解熵的意义？
我们可以先来看一组数据