机器学习：决策树总结

89 阅读 0 评论 59 点赞

我是靠谱客的博主平常台灯，最近开发中收集的这篇文章主要介绍机器学习：决策树总结，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

决策树是一种基于树状结构进行决策的策略，是一种有监督的机器学习算法

1、决策树优缺点：

1.1、优点：
　简单易懂、易解释
　既可以处理离散值也可以处理连续值(ID3只能处理离散值)
　可用于寻找重要特征变量
　不需要提前归一化预处理
　使用决策树预测的代价是 $O(log_2m)$ ， m为样本数。
1.2、缺点：
　决策树会因样本发生一点点改动，就导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。
　容易过拟合。可以通过设置节点最少样本数量和限制决策树深度来优化。
　有些比较复杂的关系，决策树很难学习，比如异或。这个就没有办法了，一般这种关系可以换神经网络分类方法来解决。
　每一个节点的选择都是贪婪算法，不能保证全局最优解。可以通过集成学习之类的方法来改善。
　如果某些特征(label)的样本比例过大，生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善。

2、构造决策树的两大核心问题

2.1、如何选出最佳分支(特征)与最佳节点(特征节点)
　　采用贪心算法，每一步都选择最好的节点分支（以局部最优策略选择），而非死磕全局最优
2.2、决策树剪枝策略(防过拟合)
　　决策树过拟合风险很大，理论上可以将类别完全分开，即在训练样本上实现100%的准确率
　　剪枝策略：
　　　　预剪枝(贪心算法思路)：边建立决策树边进行剪枝的操作
　　　　　　控制树的深度。样本数和节点数
　　　　　　叶子节点个数，叶子节点样本数，信息增益量
　　　　后剪枝：完成决策树后进行剪枝操作，实用
　　　　　　通过一定的衡量标准
　　　　　　叶子节点越多，损失越大
　　后剪枝比预剪枝更为优越，通常它会保留更多的节点并具有更强的泛化能力，但是，由于需要构建完整的树并且验证多个节点，模型的复杂程度会更高。

3、重要概念：

3.1、熵：描述物质系统状态可能出现的程度，混乱状况，一般介于0~1之间，1最混乱，0确定性最高，是理想状况。对于一组数据，分类后熵越小，说明分类效果越好
单一变量信息熵的计算公式：

3.2、多变量的联合熵的计算：

3.3、有了联合熵，又可以得到条件熵的表达式H(X|Y)，条件熵类似于条件概率,它度量了我们在知道Y以后X剩下的不确定性。

3.4互信息【也称之为，信息增益】I(X,Y) = H(X) - H(X|Y)，度量了X在知道Y以后不确定性减少程度
在这里插入图片描述

4、决策树的三种算法说明：

4.1、ID3 (信息增益entropy)
选择信息增益最大的分割属性，即熵减程度最大，也就是使得分类后熵最小的属性
信息增益反映的给定一个条件以后不确定性减少的程度，必然是分得越细的数据集确定性更高，也就是条件熵越小，信息增益越大，故容易过拟合
不足：仅处理离散数据类型，且极容易过拟合，现在很少使用ID3

4.2、C4.5(信息增益比率entropy) 选择信息增益比率I(公式如下)最大的分割属性，

C4.5是针对ID3提出的，某特征中值的种类越多，特征对应的信息熵越大，它作为分母，可以校正信息增益导致的问题。
既可处理离散值，也能处理连续属性的数据
现在的C5.0则是对C4.5的进一步改进【大数据的商业场景应用】

4.3、C4.5不足：
C4.5生成的是多叉树，即一个父节点可以有多个节点。很多时候，在计算机中二叉树模型会比多叉树运算效率高。如果采用二叉树，可以提高效率。
C4.5只能用于分类，如果能将决策树用于回归的话可以扩大它的使用范围。
C4.5由于使用了熵模型，里面有大量的耗时的对数运算,如果是连续值还有大量的排序运算。
如果是连续值还有大量的排序运算，运算效率较低
注：C4.5的不足也是ID3的不足，同时ID3还不能处理连续属性

4.4、CART(最小基尼指数)
CART产生背景：为了能简化模型且减少运算强度但又不牺牲太多准确性。这也是CART分类效果
优于其他决策树的理论根基
基尼系数代表了模型的不纯度，基尼系数越小，则不纯度越低，特征越好。这和信息增益(比)是相反的。
既可处理离散值，也能处理连续属性的数据
属于二叉树，只能将一个父节点分为两个叶节点。
在这里插入图片描述
对比：ID3与C4.5算法只为叶子结点分配类别，而CART考虑到每个结点都有成为叶子结点的
可能，对每个结点（包括叶子结点与非叶子结点）都分配类别。