机器学习（三）——决策树(Decision Tree)1 决策树原理2 剪枝处理

109 阅读 0 评论 72 点赞

我是靠谱客的博主清脆雪糕，最近开发中收集的这篇文章主要介绍机器学习（三）——决策树(Decision Tree)1 决策树原理2 剪枝处理，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

决策树

1 决策树原理
- 1.1 决策树的构造
- 1.2 划分指标
- - 1.2.1 信息增益
  - 1.2.2 基尼(GINI)系数
- 1.3 决策树种类
- - 1.3.1 ID3
  - 1.3.2 C4.5
  - 1.3.3 CART
2 剪枝处理
- 2.1 预剪枝
- 2.2 后剪枝

1 决策树原理

决策树是基于树形结构来进行决策的，目的是产生一颗泛化能力强的决策树，其基本流程遵循简单且直观的分而治之策略。一般的，一颗决策树包含一个根结点、若干内部结点和若干叶结点；其中叶结点对应决策结果，其他结点对应一个属性测试，每个分支代表一个判断结果的输出；每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根节点包含样本全部结点。
在这里插入图片描述

1.1 决策树的构造

对于训练集 $D={(x_1,y_1),(x_2,y_2),dots,(x_m,y_m)}$ 和属性集 $A={a_1,a_2,dots,a_d}$

递归构造(D, A):

生成结点node；
如果 $D$ 中样本全部属于同一类别 $C$ ，那么将node标记未 $C$ 类叶结点，return；(该步是以当前结点所含样本最多的类别划分，注意与第5步区别)
如果 $A$ 为空或者 $D$ 中样本在 $A$ 上取值相同，那么将node标记为叶结点，其类别标记为 $D$ 中样本数最多的类，return；
*从 $A$ 中选择最优划分属性 $a_*$ (例如，选择属性脐部)；
遍历 $a_*$ 中的每一个属性值 $a_*^v$ (例如脐部属性，属性值有凹陷、稍凹、平坦)，并执行如下操作：
为node生成一个分支；
令 $D_v$ 表示 $D$ 中在 $a_*$ 取值为 $a_*^v$ 的样本子集；
如果 $D_v$ 为空，那么将分支结点标记为叶结点，其类别标记为 $D$ 中样本最多的类，return(例如，脐部凹陷的样本集为空，直接标记为叶结点，类别为好瓜)；(该步是以根节点所含样本最多的类别划分，注意与第2步区别）
否则以 $D_v$ 和 ${a_*} notin A$ 为分支结点，递归构建下一个结点;
输出以node为根节点的决策树。

1.2 划分指标

从构造过程可知，决策树学习的关键在于第4步，如何选择最优划分属性。因此这里有两个划分指标：信息增益和基尼(GINI)系数。

1.2.1 信息增益

信息增益衡量的是划分前后信息不确定性程度的减小。而“信息熵”是衡量样本集合纯度最常用的一种指标，“信息熵”越小样本集合的纯度越大。因此我们使用“信息熵”来衡量样本的不确定程度，定义为：
$H(D)=-sum_{k=1}^{|y|}p_klogp_k$
其中 $k$ 表示样本的标签， $p$ 表示该类样本出现的概率。样本集合越纯则 $p_k$ 越大，则 $E n t (D)$ 越小。

在对样本进行划分时，我们选择属性 $a$ ，假设该属性有 $v$ 个可能的取值 ${a^1,a^2,dots,a^v}$ ，那么依此划分会产生 $v$ 个分支，第 $v$ 个分支的数据集为 $D^v$ ，由此可计算出每个分支条件下对应的信息熵，即条件熵：
$H(D|a)=sum_{a^vin a}p(a^v)H(D|a=a^v)\ qquadqquadqquadqquad;=-sum_{a^vin a}p(a^v)sum_{yin Y}p(y|a^v)logp(y|a^v)\ qquadqquadqquad=-sum_{a^vin a}sum_{yin Y}p(y,a^v)logp(y|a^v)\ qquadqquadqquad;=-sum_{a^vin a,yin Y}p(y,a^v)logfrac{p(y,a^v)}{p(a^v)}\ qquadqquadquad=sum_{a^vin a,yin Y}p(y,a^v)logfrac{p(a^v)}{p(y,a^v)}$
信息增益定义为信息熵与条件熵的差值，即父亲节点的信息熵减去所有子节点归一化条件下的信息熵：
$I G = H (D, a) = H (D) - H (D ∣ a)$
信息增益IG越大，说明使用该特征划分数据所获得的信息量变化越大，子节点的样本“纯度”越高。

因此，属性选择为：
$a_* =arg;max_{ain A};H(D,a)$

1.2.2 基尼(GINI)系数

同样的，我们可以使用基尼系数衡量样本集合的不纯度。
$sum{p_i^2}$
当我们划分时，计算使用当前属性 $a$ 划分的基尼系数：
$Gini_a = sum_{ain A}p(A=a)[1 - sum{p_i^2}]$
一般来说，我们选择使得划分后Gini指数最小的特征（注意这里是直接根据Gini指数进行判断，而并非其变化量）:
$a_* =arg;min_{ain A};Gini_a$

1.3 决策树种类

1.3.1 ID3

使用信息增益作为划分指标。

1.3.2 C4.5

ID3越细小的分割分类错误率越小，所以ID3会越分越细，但是这会导致过度学习。基于此C4.5对ID3进行了改进，使用信息增益率作为划分指标。如果分割太细那么增益率的分母就会增加，信息增益率会降低，其他的构建过程和ID3相同。
信息增益率定义为：
$H_ratio(D,a)=frac{H(D,a)}{IV(a)}\ IV(a)=-sum_{a^v in a}p(a^v)logp(a^v)=-sum_{a^v in a}frac{|D^v|}{|D|}logfrac{|D^v|}{|D|}$

1.3.3 CART

CART叫分类回归树，它是一种二叉树。使用基尼系数(Gini)作为划分指标。CART与ID3有相同的问题，可能导致划分太细导致过度学习。

2 剪枝处理

前面已经说过决策树可能会划分过细，导致过度学习，此时可以使用剪枝技术进行处理，防止过拟合。剪枝技术可分为“预剪枝”和“后剪枝”。

2.1 预剪枝

预剪枝是指在决策树生成个过程中，对每个结点在划分前先进行评估，若当前结点的划分不能带来决策树泛化性能的提升，则停止划分，并将当前结点标记为叶结点，类别标记为当前结点样本集合中样本数最多的类别。

2.2 后剪枝

后剪枝是指先从训练集生成一颗完整的决策树，然后自底向上地对非叶子结点进行评估，若该结点对应地子树被替换为叶结点能带来泛化性能地提升，则将该子树替换为叶结点。

最后

以上就是清脆雪糕为你收集整理的机器学习（三）——决策树(Decision Tree)1 决策树原理2 剪枝处理的全部内容，希望文章能够帮你解决机器学习（三）——决策树(Decision Tree)1 决策树原理2 剪枝处理所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错，欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：机器学习
浏览次数：109 次浏览
发布日期：2023-08-21 00:50:09
本文链接：https://www.kaopuke.com/article/k-p-k_14_uzo_18_fy_12__23__10_w.html

机器学习（三）——决策树(Decision Tree)1 决策树原理2 剪枝处理

概述

决策树

1 决策树原理

1.1 决策树的构造