我是靠谱客的博主 痴情草丛,最近开发中收集的这篇文章主要介绍分类与回归树(CART,Classification And Regression Tree),觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

分类回归树也属于一种决策树。
分类回归树是一棵二叉树,且每个非叶子节点都有两个孩子

构建决策树时通常采用自上而下的方法,在每一步选择一个最好的属性来分裂。 "最好" 的定义是使得子节点中的训练集尽量的纯。不同的算法使用不同的指标来定义"最好"。本部分介绍一种最常见的指标。

GINI指数:
1、是一种不等性度量;
2、通常用来度量收入不平衡,可以用来度量任何不均匀分布;
3、是介于0~1之间的数,0-完全相等,1-完全不相等;
4、总体内包含的类别越杂乱,GINI指数就越大(跟熵的概念很相似)

基尼不纯度指标

在CART算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时,基尼不纯度为零。


算法:
  1. 根据GINI找到最佳的待切分特征
  2. 如果该节点不能再分,将该节点存为叶节点
  3. 执行二元切分
  4. 在右子树递归调用createTree()方法,创建子树
  5. 在右子树递归调用createTree()方法,创建子树 : 一个节点产生左右孩子后,递归地对左右孩子进行划分即可产生分类回归树。 当节点包含的数据记录都属于同一个类别时就可以终止分裂了。

CART相比AdaBoost的效率会高一些,因为前者是“有条件的切”,后者是完全的“横、竖”。

最后

以上就是痴情草丛为你收集整理的分类与回归树(CART,Classification And Regression Tree)的全部内容,希望文章能够帮你解决分类与回归树(CART,Classification And Regression Tree)所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(57)

评论列表共有 0 条评论

立即
投稿
返回
顶部