我是靠谱客的博主 痴情草丛,最近开发中收集的这篇文章主要介绍分类与回归树(CART,Classification And Regression Tree),觉得挺不错的,现在分享给大家,希望可以做个参考。
概述
分类回归树也属于一种决策树。
分类回归树是一棵二叉树,且每个非叶子节点都有两个孩子。
构建决策树时通常采用自上而下的方法,在每一步选择一个最好的属性来分裂。 "最好" 的定义是使得子节点中的训练集尽量的纯。不同的算法使用不同的指标来定义"最好"。本部分介绍一种最常见的指标。
GINI指数:
1、是一种不等性度量;
2、通常用来度量收入不平衡,可以用来度量任何不均匀分布;
3、是介于0~1之间的数,0-完全相等,1-完全不相等;
1、是一种不等性度量;
2、通常用来度量收入不平衡,可以用来度量任何不均匀分布;
3、是介于0~1之间的数,0-完全相等,1-完全不相等;
4、总体内包含的类别越杂乱,GINI指数就越大(跟熵的概念很相似)
基尼不纯度指标
在CART算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时,基尼不纯度为零。
算法:
- 根据GINI找到最佳的待切分特征
- 如果该节点不能再分,将该节点存为叶节点
- 执行二元切分
- 在右子树递归调用createTree()方法,创建子树
- 在右子树递归调用createTree()方法,创建子树 : 一个节点产生左右孩子后,递归地对左右孩子进行划分即可产生分类回归树。 当节点包含的数据记录都属于同一个类别时就可以终止分裂了。
CART相比AdaBoost的效率会高一些,因为前者是“有条件的切”,后者是完全的“横、竖”。
![](https://file2.kaopuke.com:8081/files_image/2023062215/202306221527055458688.png)
最后
以上就是痴情草丛为你收集整理的分类与回归树(CART,Classification And Regression Tree)的全部内容,希望文章能够帮你解决分类与回归树(CART,Classification And Regression Tree)所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复