信息熵,信息增益，基尼指数

236 阅读 0 评论 156 点赞

我是靠谱客的博主朴素方盒，这篇文章主要介绍信息熵,信息增益，基尼指数，现在分享给大家，希望可以做个参考。

信息熵：是度量样本集合纯度最常用的一种指标。

公式表达：假定当前样本集合D中第k类样本所占的比例为pk（k=1,2...,n）,则D的信息熵定义为：Ent(D)=-ξpklog2 pk(k=1,2,..n)。Ent(D)的值越小，则D的纯度越高。（公式的具体理解如下）

1.每个符号的自信息量：I（ai）=log(1/pi)（ai是第i个变量的取值，pi是第i个变量取值为ai的概率。一般情况，我们用概率的倒数的对数函数来表示某一件事（某一符号）出现所带来的信息量）

2.符号集的平均信息量就是用信息熵来度量。信息熵：信源的平均信息量（概率平均）。H(x)=E[I(xi)]=E[log2 1/p(xi)]=-ξp(xi)log2 p(xi)(i=1,2,..n)--信源的每个符号所提供的平均信息量。（http://doc.mbalib.com/view/03becbac4f2a2c78927c2a12eb2831e6.html）

3.期望值的计算：　设是随机变量的函数。

是离散型随机变量，它的概率分布为
。
　　2° 是连续型随机变量，它的概率密度为，则有
。

　　关于二维随机变量函数的数学期望，也有如下类似定理（http://www.tyrtvu.cn/page/wangyekejian/yygltj/yygltj4/15/htm/1_2.html）

信息熵---》信息增益：著名的ID3决策树学习算法就是以信息增益为准则来选择划分属性。（信息增益越大，”纯度提升“越大）

公式表达：Gain(D,a)=Ent(D)-ξ|Dv|/|D|Ent(Dv)

基尼指数：CART决策树使用“基尼指数”来选择划分属性。我们在候选集合A中，选择那个使得划分后基尼指数最小的属性作为最优划分属性。

数据集D的纯度可用基尼值来度量：Gini(D)=1-ξpk2;基尼值反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率。因此，基尼值越小，数据集D的纯度越高。

公式表达：属性a的基尼指数定义为，Gini_index(D,a)=ξ|Dv|/|D|Gini(Dv)

最后

以上就是朴素方盒最近收集整理的关于信息熵,信息增益，基尼指数的全部内容，更多相关信息熵内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(156)

本文分类：模式识别
浏览次数：236 次浏览
发布日期：2023-08-21 04:05:26
本文链接：https://www.kaopuke.com/article/k-p-k_14_uzo_18_fz_14__23__14_4.html

相关文章

9-信息熵与基尼系数

熵和基尼系数

基尼系数与熵

决策树中的熵和基尼指数

信息熵,信息增益，基尼指数

基尼系数一，基尼系数定义

java python算法_用Python，Java和C ++示例解释的排序算法

java python算法_用Python，Java和C ++示例解释的排序算法

Decision Trees

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部