信息熵,信息增益,基尼指数
信息熵:是度量样本集合纯度最常用的一种指标。公式表达:假定当前样本集合D中第k类样本所占的比例为pk(k=1,2...,n),则D的信息熵定义为:Ent(D)=-ξpklog2 pk(k=1,2,..n)。Ent(D)的值越小,则D的纯度越高。(公式的具体理解如下)1.每个符号的自信息量:I(ai)=log(1/pi)(ai是第i个变量的取值,pi是第i个变量取值为ai的概率。一般情况