概述
思考
- 什么是决策树?
- 信息熵概念?
1. 什么是决策树?
决策树(Decision Tree)是一种基本的分类和回归的方法。本篇主要讨论用于分类的决策树。
分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种形式:内部结点和叶节点。
内部结点:表示一个特征或属性
叶节点:表示一个类
1.1 决策树直观理解
下面我们通过一个例子来理解决策树,若我们有一下数据,要求通过以下数据,判断某用户是否能够偿还债务。
1.2 构建过程简述
用决策树分类,从根节点开始,对实例的某一特征进行测试,根据测试结果将实例分配到其子结点;这时,每一个子结点对应着该特征的一个值。如此递归地对实例进行测试分配,直到达到叶节点。最后将实例分到叶节点的类中。
注:对于如何根据特征构建决策树,关注以后的博客更新。
1.3 根据构建方法构建决策树
根据数据,我们主观上觉得年收入对于是否能够偿还债务最重要,所以将年收入作为根结点。年收入大于等于97.5千元的可以偿还,对于小于97.5的,再用是否拥有房产进行划分,最后根据婚姻情况进行划分,直到到达叶节点为止。
当构建好一个决策树后,新来一个用户后,可以根据决策好的模型直接进行判断,比如新用户为:无房产、单身、年收入55K,那么根据判断得出该用户无法偿还债务。
2. 信息熵
为了便于以后对信息增益的理解,先给出熵与条件熵的定义:
熵,是表示随机变量不确定性的度量。
如果待分类的事务可能划分在多个分类中,则符号
xi
x
i
的信息定义为:
熵定义为信息的期望值:
条件熵:
条件熵表示:在已知随机变量X的条件下随机变量Y 的不确定性。X给定条件下Y的条件概率分布的熵对X的数学期望。
这边只简单提了下熵和条件熵,后面特征选择中会用到信息增益与信息增益比
信息增益与信息增益比都是通过熵和条件熵得到
对此不理解的可以查看相关资料,补充一下
最后
以上就是耍酷向日葵为你收集整理的【机器学习】决策树(一)——简单理解决策树的全部内容,希望文章能够帮你解决【机器学习】决策树(一)——简单理解决策树所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复