决策树过拟合现象_决策树(2)：特征选择和缺失值处理

71 阅读 0 评论 47 点赞

我是靠谱客的博主大方西牛，最近开发中收集的这篇文章主要介绍决策树过拟合现象_决策树(2)：特征选择和缺失值处理，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

1. 特征选择

机器学习中，如果在模型在训练集中表现良好而在测试集中表现很糟糕的现象，称为模型的过拟合。在决策树模型中，仍然需要通过某些条件控制模型的过拟合。

在前面1小节中，参考决策树(1): 总览。在决策树的左枝，在具有良好血液循环、不具有动脉闭锁患者中(13/102)，此时的Gini不纯度系数为0.20；如果基于患者是否具有胸痛继续分类，Gini不纯度系数将变为0.29，Gini系数将增大。不使用胸痛数据的分类效果更好，故不考虑其是否具有胸痛而进一步分类，从而将其作为叶节点。

假设基于chest pain 的分类在所有情况下均不能减小Gini系数，那么在最终构建的决策树中将仅含有变量Good Blood Circulation 和Blocked arteries。这样的过程称为自动特征选择。

在创建决策树时，为了避免出现过拟合的现象，往往需要设置阈值来进行特征选择：如在某个内部节点使用变量进行分类时，仅当该变量使得该节点的Gini系数减少值达到设定阈值时，才考虑将该变量纳入创建的决策树。

决策树和其他模型的过拟合表现一致，即模型在训练集中表现良好，而在其他测试集中表现糟糕。随着决策树的分支的增多，往往会出现过拟合的现象。故为了避免模型出现过拟合的现象，我们仅纳入Gini系数减少值到达设置阈值的变量，这样的过程称为特征选择。

2. 缺失值处理

缺失值删除处理：在上一节决策树中，基于二分类变量创建决策树时，简单的做法是将含有缺失值样本做删除处理。参考：决策树(1): 总览。

缺失值补全处理：在实际操作中，往往并不是删除缺失值所在的观测，而是采取许多替代的方法进行缺失值的处理。

①观察含有缺失值的变量，如果“yes”的数量多于“no”的数量，那么使用“yes”代替缺失值。反之，则用“no”替代缺失值。

②通过与含有缺失值变量最相关的变量进行推测。在此数据中，chest pain与blocked arteries两个变量的相关性非常高，即出现胸痛的患者也常常表现出动脉闭锁。基于胸痛的数据，可推测缺失的数据为“yes”。

如果含有缺失值的变量为数值变量，其处理的方法同分类变量。

①观察含有缺失值的数值变量，用均值或中位数替代该变量中的缺失值。②通过与含有缺失值变量的最相关变量预测缺失值。如体重和身高变量显著相关，可通过体重与身高的线性模型，从而预测某个身高对应的体重数值。如下图所示：

参考视频：https://www.youtube.com/watch?v=wpNl-JwwplA&list=PLblh5JKOoLUICTaGLRoHQDuF_7q2GfuJF&index=39

编辑：吕琼

校审：罗鹏

最后

以上就是大方西牛为你收集整理的决策树过拟合现象_决策树(2)：特征选择和缺失值处理的全部内容，希望文章能够帮你解决决策树过拟合现象_决策树(2)：特征选择和缺失值处理所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错，欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(47)

本文分类：决策树过拟合现象
浏览次数：71 次浏览
发布日期：2024-06-12 08:20:01
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_7_o_22_fy_13__7_gx.html

相关文章

号称下一代日志收集系统！来看看它有多强

号称下一代日志收集系统！来看看它有多强

一文理解 Linux 平均负载，附排查工具

一文理解 Linux 平均负载，附排查工具

工作中100%能用到的git进阶用法！

工作中100%能用到的git进阶用法！

决策树实践

决策树过拟合现象_决策树(2)：特征选择和缺失值处理

决策树过拟合现象_决策树(2)：特征选择和缺失值处理

【面试考】【入门】决策树算法ID3，C4.5和CART

【面试考】【入门】决策树算法ID3，C4.5和CART

白话机器学习算法理论+实战之朴素贝叶斯

白话机器学习算法理论+实战之朴素贝叶斯

python pca降维_【白话机器学习】算法理论+实战之PCA降维

python pca降维_【白话机器学习】算法理论+实战之PCA降维

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部