概述
本博客内容较散,作为针对笔者遗漏或生疏知识点为主进行整理,敬请谅解。
树型模型:
以决策树为基础,ID3、C4.5为代表
决策树:本质是以实例为基础的归纳学习
核心思想:根据划分准则分而治之,自顶向下构造一棵熵值下降最快的树
最大的优点:可以自学习,不需要过多的业务知识;可解释性强,推理分类规则
关键在于如何确定划分依据:
ID3信息增益:利用样本纯度来切分,对取值数目多的属性有所偏好,也即互信息
C4.5信息增益率:权衡了偏好带来的不利影响,但会对取值较少的特征有偏好
因此,通常从候选属性中先找出信息增益高于平均水平的属性,再选取信息增益率最大者,结合二者优势。
CART基尼系数:另一种衡量纯度的方法,反映了从D中随机抽取两个样本,类别标记不一致的概率,基尼系数越小说明属性纯度越高
归纳偏置:更相信纯度高的特征
评价函数:Σ叶子节点样本个数*熵,越小越好,也可视为划分过程的损失函数
可见,树可以无限增长,容易过拟合 → 剪枝、随机森林控制
剪枝:修正损失函数,引入叶子节点个数惩罚项,重新考虑树的生成
决策树优点:需要的数据量不大、预测复杂度是对数、能够同时处理类别/数值变量、能处理多输出问题
缺点:复杂的树容易过拟合、结果不稳定,随样本而变化、学习出一棵树是NP难问题,因此实际的学习是利用启发式贪婪算法,每一步按划分取最优,不能保证全局最优、难以对抗样本不平衡
Bagging思想:RF
偏差不变,降低方差
通过bootstrap采样来进行抽样训练,总是约有37%数据可作为测试集
RF:利用bagging来平衡过拟合问题
Bootstrap中采样选出n个样本;属性中选取k个属性;选择最佳分割属性建立CART树,投票表决
同样的思想,可用于其他分类器,也可用于回归模型,使用均值作为预测
由于其抽样特性,带给RF以对抗缺失值的能力,也常用RF来对缺失值进行估计填补
样本不均衡:
- 下采样:随机、多模型、聚类分割
- 过采样:重复,可以避免下采样带来的信息损失
- 数据增强:随机插值填补、SMOTE
- 代价敏感学习:降低负样本的权值,提高正样本的权值
RF衡量样本相似度,两个样本同时出现在一个叶节点的次数越多,越相似;
RF计算特征重要度:取决于决策树的划分准则能力
由于RF每棵树之间没有关联,容易并行计算
适用于任何分类场景,常常作为第一种探索性模型对分类问题进行尝试。
优点:上述提到
缺点:已被证明在噪音较大的数据下容易过拟合
对于不同取值的类别属性,划分较多的属性会对RF造成更大影响,这种数据上产出的属性权值不可信
Boosting:利用弱学习器生成强学习器。
首先给定一个目标损失函数,定义域是所有可信的基函数,提升算法通过迭代梯度来逼近局部最小值。理论意义:如果一个问题存在弱分类器,则可以通过提升来构造强分类器
GBDT本质:在函数空间而非参数空间的优化问题,
参数设置:正则系数、树的最大层数、叶子节点包含样本个数、迭代次数、学习率
不易并行,因为每棵树都是在前树的基础上得到的
Xgboost本质是利用了二阶导梯度信息,可以更快的收敛。
使用了多核并行计算,底层为C++,训练速度快;本质上是划分上并行,不是构造树的并行
Adaboost:本质上是对分类器和样本都加以权重来进行学习提升,损失函数为指数损失,模型是基分类器的加法模型
Bagging不需要剪枝,降低方差;Boosting基于弱学习期构造强学习器,降低偏差
GBDT中除了使用梯度下降外,也可以使用牛顿法进行二阶优化
最后
以上就是美丽眼神为你收集整理的树型模型&集成模型小结的全部内容,希望文章能够帮你解决树型模型&集成模型小结所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复