概述
决策树
决策树一一种基本的分类与回归的算法。呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程,可以认为是:if-then 规则的集合,也可以认为是定义在特征空间与类上的条件概率分布。
主要的优点是:
模型具有可读性,分类速度快,学习数据时,根据损失函数最小化的原则建立决策树模型,预测时,对性的数据利用建立的决策树模型进行分类。
决策树学习通常包括3个步骤:特征的选择、决策树生成,决策树的修剪
决策树模型
分类决策树模型是一种描述对实例进行分类的树形结构 。决策树由节点和有向边组成,节点有两种类型,内部节点和叶节点
内部节点:表示一个特征或者属性
叶节点:表示一个类
决策树学习的算法通常是一个递归的选择最优特征,并根据该特征对训练数据进行分割,是对各个子数据集有一个最好的分类过程,这一过程对应着特征空间的划分,也对应这决策树的构建。
首先,构建根节点,将所有训练数据都放着根节点上,选择一个最优特征,按照这一特征将训练数据集划分成子集,使得各个子集有一个在当前条件下的最好的分类,如果这个子集已经能够基本分类正确,那么构建叶节点,并将这些子集分到对应的叶节点中去;如果还有子集没有被基本分类正确,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的节点,如此递归下去,直到所有的训练子集被基本分类正确,或者没有合适的特征为止。最后每个子集都被分到叶节点上,即都有了明确的类,这样就产生了一个决策树。
以上方法生成的决策树可能对训练集有很好的分类能力,但对未知的测试数据却未必有很好的分类能力,即可能发生过拟合现象。因此:需要对已经生成的决策树进行自下而上的剪枝,将树变得更简单一点从而使它有更好的泛化能力。
剪枝有两种方式:预剪枝、后剪枝、
https://blog.csdn.net/memray/article/details/44351913
最后
以上就是潇洒咖啡为你收集整理的决策树基本理论的全部内容,希望文章能够帮你解决决策树基本理论所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复