我是靠谱客的博主 个性蜡烛,最近开发中收集的这篇文章主要介绍决策树的几点思考,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

最近温习了一下决策树,又加深了理解。下面总结一下我对于决策树的几点思考。

我们知道三种经典的决策树算法:ID3、C4.5、CART,也知道它们的几点性质,比如,ID3仅能用于特征是离散值的情况,CART既可以用于分类也可以用于回归,等等。那么它们为什么会有这些性质?

ID3为什么不能用于连续型特征,而CART可以?

关键点在于“二元分裂”与“多元分裂”

ID3选择好特征之后,对于这个特征的每个取值生成一个节点,是“多元分裂”,正适用于离散型特征。如果换成连续型特征,则无法为每个取值生成一个节点。可以说ID3是专门为离散型特征而设计的。

而CART采用了“二元分裂”,使得它同时适用于离散型特征和连续型特征。对于离散型特征,基于这种方法分裂:“如果该特征取值是a,则进入左节点,否则进入右节点”。对于连续型特征,基于这种方法分裂:“如果该特征取值<a,则进入左节点,否则进入右节点”。

《统计学习方法》讲CART算法的时候,讲回归树用的是连续型特征,讲分类树用的是离散型特征。实际上,无论回归还是分类,数据集中既可以有连续型特征,又可以有离散型特征。

ID3可以用于回归吗?

为什么CART可以用于回归?其实回归和分类的区别仅在于特征分裂后的评价标准。回归采用平方误差和,分类采用基尼指数。二者都希望最小化各自的评价标准。如果将ID3中采用的熵换成平方误差和,就可以做回归了。(这时候算法就不叫ID3了。。这里只是做一个思路延伸)

 

 

 

最后

以上就是个性蜡烛为你收集整理的决策树的几点思考的全部内容,希望文章能够帮你解决决策树的几点思考所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(79)

评论列表共有 0 条评论

立即
投稿
返回
顶部