树型模型&集成模型小结

66 阅读 0 评论 44 点赞

我是靠谱客的博主美丽眼神，最近开发中收集的这篇文章主要介绍树型模型&集成模型小结，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

本博客内容较散，作为针对笔者遗漏或生疏知识点为主进行整理，敬请谅解。

树型模型：

以决策树为基础，ID3、C4.5为代表

决策树：本质是以实例为基础的归纳学习

核心思想：根据划分准则分而治之，自顶向下构造一棵熵值下降最快的树

最大的优点：可以自学习，不需要过多的业务知识；可解释性强，推理分类规则

关键在于如何确定划分依据：

ID3信息增益：利用样本纯度来切分，对取值数目多的属性有所偏好，也即互信息

C4.5信息增益率：权衡了偏好带来的不利影响，但会对取值较少的特征有偏好

因此，通常从候选属性中先找出信息增益高于平均水平的属性，再选取信息增益率最大者，结合二者优势。

CART基尼系数：另一种衡量纯度的方法，反映了从D中随机抽取两个样本，类别标记不一致的概率，基尼系数越小说明属性纯度越高

归纳偏置：更相信纯度高的特征

评价函数：Σ叶子节点样本个数*熵，越小越好，也可视为划分过程的损失函数

可见，树可以无限增长，容易过拟合 → 剪枝、随机森林控制

剪枝：修正损失函数，引入叶子节点个数惩罚项，重新考虑树的生成

决策树优点：需要的数据量不大、预测复杂度是对数、能够同时处理类别/数值变量、能处理多输出问题

缺点：复杂的树容易过拟合、结果不稳定，随样本而变化、学习出一棵树是NP难问题，因此实际的学习是利用启发式贪婪算法，每一步按划分取最优，不能保证全局最优、难以对抗样本不平衡

Bagging思想：RF

偏差不变，降低方差

通过bootstrap采样来进行抽样训练，总是约有37%数据可作为测试集

RF：利用bagging来平衡过拟合问题

Bootstrap中采样选出n个样本；属性中选取k个属性；选择最佳分割属性建立CART树，投票表决

同样的思想，可用于其他分类器，也可用于回归模型，使用均值作为预测

由于其抽样特性，带给RF以对抗缺失值的能力，也常用RF来对缺失值进行估计填补

样本不均衡：

下采样：随机、多模型、聚类分割
过采样：重复，可以避免下采样带来的信息损失
数据增强：随机插值填补、SMOTE
代价敏感学习：降低负样本的权值，提高正样本的权值

RF衡量样本相似度，两个样本同时出现在一个叶节点的次数越多，越相似；

RF计算特征重要度：取决于决策树的划分准则能力

由于RF每棵树之间没有关联，容易并行计算

适用于任何分类场景，常常作为第一种探索性模型对分类问题进行尝试。

优点：上述提到

缺点：已被证明在噪音较大的数据下容易过拟合

对于不同取值的类别属性，划分较多的属性会对RF造成更大影响，这种数据上产出的属性权值不可信

Boosting：利用弱学习器生成强学习器。

首先给定一个目标损失函数，定义域是所有可信的基函数，提升算法通过迭代梯度来逼近局部最小值。理论意义：如果一个问题存在弱分类器，则可以通过提升来构造强分类器

GBDT本质：在函数空间而非参数空间的优化问题，

参数设置：正则系数、树的最大层数、叶子节点包含样本个数、迭代次数、学习率

不易并行，因为每棵树都是在前树的基础上得到的

Xgboost本质是利用了二阶导梯度信息，可以更快的收敛。

使用了多核并行计算，底层为C++，训练速度快；本质上是划分上并行，不是构造树的并行

Adaboost：本质上是对分类器和样本都加以权重来进行学习提升，损失函数为指数损失，模型是基分类器的加法模型

Bagging不需要剪枝，降低方差；Boosting基于弱学习期构造强学习器，降低偏差

GBDT中除了使用梯度下降外，也可以使用牛顿法进行二阶优化

最后

以上就是美丽眼神为你收集整理的树型模型&集成模型小结的全部内容，希望文章能够帮你解决树型模型&集成模型小结所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错，欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：机器学习
浏览次数：66 次浏览
发布日期：2024-01-17 05:05:24
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_23_ogf5_14_j_6_w.html

树型模型&集成模型小结

概述

最后

评论列表共有 0 条评论

发表评论取消回复

树型模型&集成模型小结

概述

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复