朴素方盒

文章
4
资源
0
加入时间
3年1月19天

信息熵,信息增益,基尼指数

信息熵:是度量样本集合纯度最常用的一种指标。公式表达:假定当前样本集合D中第k类样本所占的比例为pk(k=1,2...,n),则D的信息熵定义为:Ent(D)=-ξpklog2 pk(k=1,2,..n)。Ent(D)的值越小,则D的纯度越高。(公式的具体理解如下)1.每个符号的自信息量:I(ai)=log(1/pi)(ai是第i个变量的取值,pi是第i个变量取值为ai的概率。一般情况