概述
目录
一、决策树简介
二、决策树的学习路线
三、决策树的学习重心与学习要求
四、学习禁忌-先学ID3
五、特别声明-本站对各种决策树的称呼
决策树的内容比较混杂,一条好的学习路线能起到事半功倍的作用。
本文不涉及任何的决策树原理,主要给大家梳理学习路线和学习重心,以帮助后面更轻松的学习。
如果你在学习决策树的过程中遇到了疑惑,那希望这篇文章能帮助到你。
一、决策树简介
决策树主要有两支线:
(1) CART: classification and regression tree,分类与回归树(即CART自身包括了分类树与回归树)
(2) ID3系列: ID3算法,C4.5算法,C5.0算法
ID3系列起源更早,但目前使用更多、更好用的是CART树。ID3在实际中很少使用,大部分软件包也不支持。
二、决策树的学习路线
由于决策树包含了两条路线,且每条路线有各自的发展,导致决策树的知识非常混乱。学习路线非常重要。错误的学习路线,会将决策树众多概念混淆在一起。一条明晰的路线,可以由简到繁,起到学习的事倍功倍。
决策树的学习路线建议如下:
1.先学习CART决策树分类树
2.再学习CART决策树回归树
3.先学习ID3
4.再学习C4.5。
最后,将各个决策树进行比较,辨识共同之处与差异之处。
三、决策树的学习重心与学习要求
1.CART分类树 :重点,紧紧掌握
2.CART回归树 :其次,一般掌握
3.先学习ID3:了解
4.再学习C4.5:了解
目前实际中用得最多的是CART的分类树,回归树是其次(一般不用决策树做回归,但后面有算法依赖回归树,所以也必须学习)。
ID3和C4.5系列只要求了解,现在大部分(目前我知道的)软件包不支持ID3和C4.5,也就是说,你要使用ID3,必须自己编写程序细节,另一方面,为什么软件包不实现它,这个值得深思。
补充两个需要注意的点:
(1) 学习的时候,要注意不要被ID3系列的概念影响到CART的学习,ID3很多概念已经是被渐渐抛弃了的,很多网文中,并没有指出实际应用中ID3的非重要性,以致于整个决策树概念非常冗重,初学者必须引起重视。
(2) 软件包中基本不再实现ID3系列的算法,因此,日常人们所说的决策树,通常是指CART决策树,甚至是指CART决策树中的分类树。
为什么笔者要做这样的强调,因为很多年前笔者学习ID3时,就从入门到了放弃,连CART都没学成。直到多年后在工作中才发现,真正使用的是CART,而不是ID3,而懂不懂ID3跟CART的使用半毛钱关系都没有。
一个一生都不太有可能去真实落地的算法,何必要强加自己一定要知道它的每一个细节呢?又何必要把时间浪费在它身上呢?只是大部分的教程,总是从ID3入手,给当年初入茅庐的笔者一种错觉,以为一定要学会ID3才算懂决策树。其实不然,ID3(C4.5)在实际中只能充当一种历史知识,所以,把ID3定位在一种“仅需了解”的地位上,一下子整个学习都轻松了许多。那还要不要学ID3?那是肯定的,别人懂的,你至少也要有所了解。至于“ID3C4.5代码实现”,笔者就不建议了。---个人意见,仅供参考。
四、学习禁忌-先学ID3
说明:如果是第一次接触决策树,可以略过,跟着笔者的教程走就行。这段仅写给有决策树学习经验同学。
为什么说先学ID3是一种禁忌?
(1) ID3算法中,有比较明显的缺陷,一个缺陷越多的东西,对于逻辑紧密的同学,越难理解。
(2) 引入了熵这样的概念,熵本来就是一个不好理解的东西,这就是一道门槛和疑问了。
(3) ID3并非日常所用的决策树,这又很容易在学习时产生信息验证偏差,例如,ID3只支持枚举变量,而我们用的决策树(CART)支持连续变量,那就很容易产生误解,以为ID3也能支持连续变量,然后不断思考ID3是怎么支持连续变量。
(4) 软件并没有实现ID3,也就是在实现标准上没有较好的统一,看野包实现的流程,那是五花八门,众说纷芸的。
在学习了ID3后,再进行学习C4.5,又是一个坑,C4.5就是对ID3的缺陷进行补丁,笔者认为这些补丁的质量打得也不是非常完美,在一个基础就不好的东西上,再继续打补丁,非常别扭。所以,C4.5的学习同样会面临很多疑惑。
最重要的是,经过了漫长的ID3、C4.5,并没有掌握到实际使用的决策树(CART)原理,对学习来说,这种没有即时回报,是非常难熬的。往往学完C4.5已经透支了所有激情了。
但反过来,如果你直接学习CART,CART非常清晰明确,简单易理解,而且平时使用的就是CART,一切和实际使用能对上号,这种即时回报感,是非常好的鼓励。在站在CART的这个制高点上,再回头看ID3,ID3就好学很多了。
五、特别声明-本站对各种决策树的称呼
特别声明:本系列文章将根据日常实际称呼习惯,按以下对应各种决策树命名,而不再遵循学术名称:
本文以下如无特别说明,都默认所说的决策树是指CART分类树。
好了,闲话到此,下篇开启决策树之路吧!
相关文章
《入门篇-环境搭建:anaconda安装》
《入门篇-模型:逻辑回归》
《入门篇-模型:决策树-CART》
最后
以上就是尊敬芒果为你收集整理的入门篇:决策树学习建议(写给在学习中遇到困难的同学)的全部内容,希望文章能够帮你解决入门篇:决策树学习建议(写给在学习中遇到困难的同学)所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复