我是靠谱客的博主 美丽眼神,最近开发中收集的这篇文章主要介绍树型模型&集成模型小结,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

本博客内容较散,作为针对笔者遗漏或生疏知识点为主进行整理,敬请谅解。

树型模型:

以决策树为基础,ID3、C4.5为代表

决策树:本质是以实例为基础的归纳学习

核心思想:根据划分准则分而治之,自顶向下构造一棵熵值下降最快的树

最大的优点:可以自学习,不需要过多的业务知识;可解释性强,推理分类规则

关键在于如何确定划分依据:

ID3信息增益:利用样本纯度来切分,对取值数目多的属性有所偏好,也即互信息

C4.5信息增益率:权衡了偏好带来的不利影响,但会对取值较少的特征有偏好

因此,通常从候选属性中先找出信息增益高于平均水平的属性,再选取信息增益率最大者,结合二者优势。

CART基尼系数:另一种衡量纯度的方法,反映了从D中随机抽取两个样本,类别标记不一致的概率,基尼系数越小说明属性纯度越高

归纳偏置:更相信纯度高的特征

评价函数:Σ叶子节点样本个数*熵,越小越好,也可视为划分过程的损失函数

可见,树可以无限增长,容易过拟合 → 剪枝、随机森林控制

剪枝:修正损失函数,引入叶子节点个数惩罚项,重新考虑树的生成

决策树优点:需要的数据量不大、预测复杂度是对数、能够同时处理类别/数值变量、能处理多输出问题

缺点:复杂的树容易过拟合、结果不稳定,随样本而变化、学习出一棵树是NP难问题,因此实际的学习是利用启发式贪婪算法,每一步按划分取最优,不能保证全局最优、难以对抗样本不平衡

 

Bagging思想:RF

偏差不变,降低方差

通过bootstrap采样来进行抽样训练,总是约有37%数据可作为测试集

RF:利用bagging来平衡过拟合问题

Bootstrap中采样选出n个样本;属性中选取k个属性;选择最佳分割属性建立CART树,投票表决

同样的思想,可用于其他分类器,也可用于回归模型,使用均值作为预测

由于其抽样特性,带给RF以对抗缺失值的能力,也常用RF来对缺失值进行估计填补

样本不均衡:

  1. 下采样:随机、多模型、聚类分割
  2. 过采样:重复,可以避免下采样带来的信息损失
  3. 数据增强:随机插值填补、SMOTE
  4. 代价敏感学习:降低负样本的权值,提高正样本的权值

RF衡量样本相似度,两个样本同时出现在一个叶节点的次数越多,越相似;

RF计算特征重要度:取决于决策树的划分准则能力

由于RF每棵树之间没有关联,容易并行计算

适用于任何分类场景,常常作为第一种探索性模型对分类问题进行尝试。

优点:上述提到

缺点:已被证明在噪音较大的数据下容易过拟合

对于不同取值的类别属性,划分较多的属性会对RF造成更大影响,这种数据上产出的属性权值不可信

 

Boosting:利用弱学习器生成强学习器。

首先给定一个目标损失函数,定义域是所有可信的基函数,提升算法通过迭代梯度来逼近局部最小值。理论意义:如果一个问题存在弱分类器,则可以通过提升来构造强分类器

GBDT本质:在函数空间而非参数空间的优化问题,

参数设置:正则系数、树的最大层数、叶子节点包含样本个数、迭代次数、学习率

不易并行,因为每棵树都是在前树的基础上得到的

Xgboost本质是利用了二阶导梯度信息,可以更快的收敛。

使用了多核并行计算,底层为C++,训练速度快;本质上是划分上并行,不是构造树的并行

Adaboost:本质上是对分类器和样本都加以权重来进行学习提升,损失函数为指数损失,模型是基分类器的加法模型

 

Bagging不需要剪枝,降低方差;Boosting基于弱学习期构造强学习器,降低偏差

GBDT中除了使用梯度下降外,也可以使用牛顿法进行二阶优化

 

最后

以上就是美丽眼神为你收集整理的树型模型&集成模型小结的全部内容,希望文章能够帮你解决树型模型&集成模型小结所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(44)

评论列表共有 0 条评论

立即
投稿
返回
顶部