决策表（决策树）回归VS回溯

113 阅读 0 评论 75 点赞

我是靠谱客的博主传统黑裤，最近开发中收集的这篇文章主要介绍决策表（决策树）回归VS回溯，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

决策表：

1.定义：
用表格的方式描述决策问题一种方法，这种表格也被称为决策矩阵。所谓决策表是指一个以行、列形式来描述和表示决策规则和知识信息的表，如果决策问题的后果是用损失的费用表示，这个表也被称为损失矩阵。

决策表又称判断表，是一种呈表格状的图形工具，适用于描述处理判断条件较多，各条件又相互组合、有多种决策方案的情况。精确而简洁描述复杂逻辑的方式，将多个条件与这些条件满足后要执行动作相对应。但不同于传统程序语言中的控制语句，决策表能将多个独立的条件和多个动作直接的联系清晰的表示出来。

2.结构：
决策表一般分为4个部分。每个条件对应一个变量、关系或预测，“候选条件”就是它们所有可能的值；动作指要执行的过程或操作；动作入口指根据该入口所对应的候选条件集，是否或按怎样的顺序执行动作。　许多决策表在候选条件中使用“不关心”符号来化简决策表，尤其是当某一条件对应要执行的动作影响很小时。有时，所有的条件在开始时都被认为是重要的，但最后却发现没有一个条件对执行的动作有影响，都是无关的条件。

在这4个部分的基础上，决策表根据候选条件和动作入口的表现方法的变化而变化。有些决策表使用true/false作为候选条件值(类似与if-then-else)，有些使用数字(类似于switch-case)，有些甚至使用模糊值或概率值。对应动作入口，可以简单的表示为动作是否执行(检查动作执行)，或更高级些，罗列出要执行的动作(为执行的动作排序)。

3.优点：
决策表能罗列出所有的可能情况，并清晰的指出相应的处理方式，用户不需要考虑其中的逻辑关系就能一眼看出其中什么样的动作对应什么样的情况，这比程序语言中层层嵌套的逻辑语句要强多了。而所有可能情况的平面罗列，也能避免在程序语言编写中，因为逻辑上的层层嵌套而产生遗漏，尤其在if-then-else结构中else部分是可选的情况下。
因为逻辑控制在编程中的重要地位，决策表成为设计逻辑控制时十分重要的一个工具。

决策树：
在这里插入图片描述
1.定义：
决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。
决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。
分类树（决策树）是一种十分常用的分类方法。它是一种监督学习，所谓监督学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。

2.组成：
□——决策点，是对几种可能方案的选择，即最后选择的最佳方案。如果决策属于多级决策，则决策树的中间可以有多个决策点，以决策树根部的决策点为最终决策方案。

○——状态节点，代表备选方案的经济效果（期望值），通过各状态节点的经济效果的对比，按照一定的决策标准就可以选出最佳方案。由状态节点引出的分支称为概率枝，概率枝的数目表示可能出现的自然状态数目每个分枝上要注明该状态出现的概率。

△——结果节点，将每个方案在各种自然状态下取得的损益值标注于结果节点的右端。

3.优点：
（1）决策树易于理解和实现，人们在在学习过程中不需要使用者了解很多的背景知识，这同时是它的能够直接体现数据的特点，只要通过解释后都有能力去理解决策树所表达的意义。
（2）对于决策树，数据的准备往往是简单或者是不必要的，而且能够同时处理数据型和常规型属性，在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
（3）易于通过静态测试来对模型进行评测，可以测定模型可信度；如果给定一个观察的模型，那么根据所产生的决策树很容易推出相应的逻辑表达式。

4.缺点：
（1）对连续性的字段比较难预测。
（2）对有时间顺序的数据，需要很多预处理的工作。
（3）当类别太多时，错误可能就会增加的比较快。
（4）一般的算法分类的时候，只是根据一个字段来分类。

回溯法：

1.定义：
回溯算法实际上一个类似枚举的搜索尝试过程，主要是在搜索尝试过程中寻找问题的解，当发现已不满足求解条件时，就“回溯”返回，尝试别的路径。回溯法是一种选优搜索法，按选优条件向前搜索，以达到目标。但当探索到某一步时，发现原先选择并不优或达不到目标，就退回一步重新选择，这种走不通就退回再走的技术为回溯法，而满足回溯条件的某个状态的点称为“回溯点”。许多复杂的，规模较大的问题都可以使用回溯法，有“通用解题方法”的美称。

2.基本思想:
在包含问题的所有解的解空间树中，按照深度优先搜索的策略，从根结点出发深度探索解空间树。当探索到某一结点时，要先判断该结点是否包含问题的解，如果包含，就从该结点出发继续探索下去，如果该结点不包含问题的解，则逐层向其祖先结点回溯。（其实回溯法就是对隐式图的深度优先搜索算法）。若用回溯法求问题的所有解时，要回溯到根，且根结点的所有可行的子树都要已被搜索遍才结束。而若使用回溯法求任一个解时，只要搜索到问题的一个解就可以结束。

3.用回溯法解题的一般步骤：
（1）针对所给问题，确定问题的解空间：首先应明确定义问题的解空间，问题的解空间应至少包含问题的一个（最优）解。
（2）确定结点的扩展搜索规则
（3）以深度优先方式搜索解空间，并在搜索过程中用剪枝函数避免无效搜索。

回归法：
1.定义：
是一种比较常用的机器学习算法，用来建立“解释”变量(自变量X)和观测值(因变量Y)之间的关系；从机器学习的角度来讲，用于构建一个算法模型(函数)来做属性(X)与标签(Y)之间的映射关系，在算法的学习过程中，试图寻找一个函数使得参数之间的关系拟合性最好。回归算法中算法(函数)的最终结果是一个连续的数据值，输入值(属性值)是一个d维度的属性/数值向量。

回归问题通常是用来预测一个值，如预测房价、未来的天气情况等等，例如一个产品的实际价格为500元，通过回归分析预测值为499元，我们认为这是一个比较好的回归分析。一个比较常见的回归算法是线性回归算法（LR）。另外，回归分析用在神经网络上，其最上层是不需要加上softmax函数的，而是直接对前一层累加即可。回归是对真实值的一种逼近预测。

2.优点：
（1）建模快速简便，当要建模的关系不是非常复杂且没有大量数据时尤其有用。
（2）非常直观地理解和解释。
（3）线性回归对异常值非常敏感。