概述
决策树的分裂准则
- 一、ID3决策树——以信息增益为准则来选择划分属性的决策树
- 二、C4.5决策树——以信息增益率为准则来选择划分属性的决策树
- 三、CART决策树——以基尼指数为准则来选择划分属性的决策树
在具体介绍决策树的分类准则之前,首先了解信息熵和条件熵的定义:
信息熵——度量样本集合纯度最常用的一种指标,其定义如下: E n t ( D ) = − ∑ k = 1 ∣ y ∣ p k l o g 2 p k Ent(D)=-sum_{k=1}^{|y|}p_klog_2p_k Ent(D)=−k=1∑∣y∣pklog2pk 其中, D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x m , y m ) } D={(x_1,y_1),(x_2,y_2),dots,(x_m,y_m)} D={(x1,y1),(x2,y2),…,(xm,ym)}表示样本集合, ∣ y ∣ |y| ∣y∣表示样本类别总数, p k p_k pk表示第 k k k类样本所占的比例,且:
0 ≤ p k ≤ 1 , ∑ k = 1 ∣ y ∣ p k = 1. 0le p_kle 1,sum_{k=1}^{|y|}p_k=1. 0≤pk≤1,∑k=1∣y∣pk=1. E n t ( D ) Ent(D) Ent(D)值越小,纯度越高。
条件熵——在已知样本属性a的取值情况下,度量样本集合纯度的一种指标,其定义如下: H ( D ∣ a ) = ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t ( D v ) H(D|a)=sum ^V_{v=1}{|D^v|over |D|}Ent(D^v) H(D∣a)=v=1∑V∣D∣∣Dv∣Ent(Dv)其中,a表示样本的某个属性,假定属性a有V个可能的取值 { a 1 , a 2 , … , a V } {a^1,a^2,dots ,a^V} {a1,a2,…,aV}。样本集合D中在属性a上取值为 a v a^v av的样本记为 D v D^v Dv, E n t ( D v ) Ent(D^v) Ent(Dv)表示样本集合 D v D^v Dv的信息熵。 H ( D ∣ a ) H(D|a) H(D∣a)值越大,纯度越高。
一、ID3决策树——以信息增益为准则来选择划分属性的决策树
信息增益:
G
a
i
n
(
D
,
a
)
=
E
n
t
(
D
)
−
∑
v
=
1
V
∣
D
v
∣
∣
D
∣
E
n
t
(
D
v
)
=
E
n
t
(
D
)
−
H
(
D
∣
a
)
begin{aligned}Gain(D,a)&=Ent(D)-sum^V_{v=1}{|D^v|over{|D|}}Ent(D^v)\&=Ent(D)-H(D|a)end{aligned}
Gain(D,a)=Ent(D)−v=1∑V∣D∣∣Dv∣Ent(Dv)=Ent(D)−H(D∣a)ID3决策树选择信息增益最大的属性作为划分属性,因为信息增益越大,意味着使用该属性来进行划分所获得的”纯度“提升越大。
但是,以信息增益为划分准则的ID3决策树对可取值数目较多的属性有所偏好:
G
a
i
n
(
D
,
a
)
=
E
n
t
(
D
)
−
∑
v
=
1
V
∣
D
v
∣
∣
D
∣
E
n
t
(
D
v
)
=
E
n
t
(
D
)
−
∑
v
=
1
V
∣
D
v
∣
∣
D
∣
(
−
∑
k
=
1
∣
y
∣
p
k
l
o
g
2
p
k
)
=
E
n
t
(
D
)
−
∑
v
=
1
V
∣
D
v
∣
∣
D
∣
(
−
∑
k
=
1
∣
y
∣
∣
D
k
v
∣
∣
D
v
∣
l
o
g
2
∣
D
k
v
∣
∣
D
v
∣
)
begin{aligned}Gain(D,a)&=Ent(D)-sum^V_{v=1}{|D^v|over{|D|}}Ent(D^v)\ &=Ent(D)-sum^V_{v=1}{|D^v|over{|D|}}(-sum^{|y|}_{k=1}p_klog_2p_k)\ &=Ent(D)-sum^V_{v=1}{|D^v|over|D|}(-sum^{|y|}_{k=1}{{|D_k^v|}over{|D^v|}}log_2{{|D_k^v|}over{|D^v|}}) end{aligned}
Gain(D,a)=Ent(D)−v=1∑V∣D∣∣Dv∣Ent(Dv)=Ent(D)−v=1∑V∣D∣∣Dv∣(−k=1∑∣y∣pklog2pk)=Ent(D)−v=1∑V∣D∣∣Dv∣(−k=1∑∣y∣∣Dv∣∣Dkv∣log2∣Dv∣∣Dkv∣) 其中,当某一属性可取值数目较多时,
D
v
D^v
Dv会更加趋近于
D
k
v
D_k^v
Dkv(可极端考虑为
D
v
=
D
k
v
D^v=D_k^v
Dv=Dkv,即某一属性的可取值数目等于类别数),
G
a
i
n
(
D
,
a
)
Gain(D,a)
Gain(D,a)会更大。
二、C4.5决策树——以信息增益率为准则来选择划分属性的决策树
信息增益率:
G
a
i
n
_
r
a
t
i
o
(
D
,
a
)
=
G
a
i
n
(
D
,
a
)
I
V
(
a
)
Gain_ratio(D,a)={Gain(D,a)over{IV(a)}}
Gain_ratio(D,a)=IV(a)Gain(D,a) 其中:
I
V
(
a
)
=
−
∑
v
=
1
V
∣
D
v
∣
∣
D
∣
l
o
g
2
∣
D
v
∣
∣
D
∣
IV(a)=-sum^V_{v=1}{|D^v|over{|D|}}log_2{|D^v|over{|D|}}
IV(a)=−v=1∑V∣D∣∣Dv∣log2∣D∣∣Dv∣
I
V
(
a
)
IV(a)
IV(a)用来衡量样本对a属性分布是否均匀,越均匀,则
I
V
(
a
)
IV(a)
IV(a)越大。
需要注意的是,增益率准测对可取植数目较少的属性有所偏好,因此,C4.5算法并不是直接选择增益率最大的属性进行划分,而是:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。
三、CART决策树——以基尼指数为准则来选择划分属性的决策树
基尼值:
G
i
n
i
(
D
)
=
∑
v
=
1
∣
y
∣
∣
D
v
∣
∣
D
∣
p
k
(
1
−
p
k
)
Gini(D)=sum^{|y|}_{v=1}{{|D^v|}over{|D|}}p_k(1-p_k)
Gini(D)=∑v=1∣y∣∣D∣∣Dv∣pk(1−pk)
基尼值表示:从数据集中任意抽取两个样本,两个样本属于不同类别的概率。
基尼指数:
G
i
n
i
i
n
d
e
x
(
D
,
a
)
=
∑
v
=
1
V
∣
D
v
∣
∣
D
∣
G
i
n
i
(
D
v
)
Gini_index(D,a)=sum^V_{v=1}{|D^v|over|D|}Gini(D^v)
Giniindex(D,a)=∑v=1V∣D∣∣Dv∣Gini(Dv)
基尼值和基尼指数越小(随机抽取的样本是同一类别的概率越大),样本集合的纯度越高。
最后
以上就是冷静蓝天为你收集整理的决策树的分类准则一、ID3决策树——以信息增益为准则来选择划分属性的决策树二、C4.5决策树——以信息增益率为准则来选择划分属性的决策树三、CART决策树——以基尼指数为准则来选择划分属性的决策树的全部内容,希望文章能够帮你解决决策树的分类准则一、ID3决策树——以信息增益为准则来选择划分属性的决策树二、C4.5决策树——以信息增益率为准则来选择划分属性的决策树三、CART决策树——以基尼指数为准则来选择划分属性的决策树所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复