百面机器学习总结笔记（第三章经典算法）百面机器学习总结笔记

101 阅读 0 评论 67 点赞

我是靠谱客的博主要减肥白昼，这篇文章主要介绍百面机器学习总结笔记（第三章经典算法）百面机器学习总结笔记，现在分享给大家，希望可以做个参考。

百面机器学习总结笔记（第三章经典算法）

百面机器学习总结笔记
- 第三章经典算法
- - 第1节支持向量机
  - 第2节逻辑回归
  - - 问题：逻辑回归相比于线性回归，有何异同？
    - 问题：当使用逻辑回归处理多标签的分类问题时，有哪些常见做法，分别应用于哪些场景，它们之间有怎样的关系？
  - 第3节决策树
  - - 问题：决策树有哪些常用的启发函数?
    - 问题：如何对决策树进行剪枝？

百面机器学习总结笔记

第三章经典算法

第1节支持向量机

场景描述
支持向量机( Support Vector Machie时， SVM )是众多监督学习万法中十分出色的一种，几乎所有讲述经典机器学习方法的教材都会介绍。关于 SVM，流传着一个关于天使与魔鬼的故事。
传说魔鬼和天使玩了一个游戏，魔鬼在桌上放了两种颜色的球，如图 3.1 所示。魔鬼让天使用一根木棍将官们分开。这对天使来说，似乎太容易了。天使不假思索地一摆，便完成了任务，如图3.2所示。魔鬼又加入了更多的球。随着球的增多，似乎所有的球不能再
被原来的木棍正确分开，如图3.3所示
在这里插入图片描述
SVM 实际上是在为天使找到木棒的最佳放置位置，使得两边的球都离分隔他们的木棒足够远，如图3.4 所示。依照 SVM 为天使选择的木棒位置，魔鬼即使按照刚才的方式继续加入新球，木棒也能很好地将两类不同的球分开，如图3.5 所示。
在这里插入图片描述
看到天使已经很好地解决了用木棒线性分球的问题，魔鬼又给了天使一个新的挑战，如图 3.6 所示。按照这种球的摆法，世界上貌似没高一根木棒可以将它们完美分开。但天使毕竟有法力，他一拍桌子，便让这些球飞到了空中，然后凭借念力抓起一张纸片，插在了两类球的中间，如图 3.7 所示。从魔鬼的角度看这些球，则像是被一条曲线完美的切开了，如图3.8所示：
在这里插入图片描述
后来’ “无聊”的科学家们把这些球称为“数据’，把木棍称为“分类面" '找到最大间隔的木棒位置的过程称为 “优化”，拍桌子让球飞向空中的念力叫“核映射”在空中分隔球的纸片称为“分类超平面’’ 。这便是 SVM 的童话故事。
在现实世界的机器学习领域，SVM涵盖了各个方面的知识，也是面试题目中常见的基础模型。本节的第 l 个问题考察 SVM 模型推导的基础知识;第2题到第4题则会侧重对核函数( Kernel Function )的理解。

知识点
SVM 模型推导，核函数， SMO (Sequential Minimal Optimization )算法

问题
在线性空间上线性可分的两类点，分别向 SVM 分类的超平面上做投影，这些点在超平面上的投影仍然是线性可分的吗?

分析与解答
首先明确下题目中的概念，线性可分的两类点，即通过一个超平面可以将两类点完全分开，如图 3.9 所示。假设绿色的超平面(对于二维空间来说，分类超平面退化为一维直线):为 SVM 算法计算得出的分类面，那么两类点就被完全分开。我们想探讨的是:将这两类点向绿色平面上做投影，在分类直线上得到的黄棕两类投影点是否仍然线性可分，如图 3.10所示。
在这里插入图片描述
显然一眼望去，这些点在分类超平面(绿色直线)上相互间隔，并不是线性可分的。考虑一个更简单的反例，设想、三维空间中只有两个样本点，每个点各属于一类的分类任务，此时 SVM 的分类超平面(直线) 就是两个样本点连线的中垂线，两个点在分类面(直线)上的投影会落到这条直线上的同一个点，自然不是线性可分的。
但实际上，对于任意线性可分的两组点，它们在 SVM 分类的超平面上的投影都是线性不可分的。这昕上去高些不可思议，我们不妨从二维情况进行讨论，再推广到高维空间中。
在这里插入图片描述
由于 SVM 的分类超平面仅由支持向量决定(之后会证明这结论)，我们可以考虑一个只含支持向量 SVM 模型场景。使用反证法来证明。假设存在一个 SVM 分类超平面使所有支持向量在该超平面上的投影依然线性可分，如图 3.11 所示。根据简单的初等几何知识不难发现，图中 AB 两点连线的中垂线所组成的超平面(绿色虚线);是中日较于绿色实结起平面更优的解，这与之前假设绿色实结起平面为最优的解相矛盾。考虑最优解对应的绿色虚线两组点经过投影后，并不是线性可分的。我们的证明目前还奇不严谨之处，即我们假设了仅有支持向量的情况，会不会在超平面的变换过程中支持向量发生了改变，原先的非支持向量和支持向量发生了转化呢?下面我们]证明 SVM 的分类结果仅依赖于支持向量。考虑 SVM 推导中的 KKT 条件要求
在这里插入图片描述
实际上，该问题也可以通过凸优化理论中的超平面分离定理 ( Separating Hyprplane Theorem, SHT )更加轻巧地解决。该定理理描述的是，对于不相交的两个口集，存在一个超平面，将两个口集分离。对于二维的情况，两个凸集间距离最短两点连线的中垂线就是一个
将官们分离的超平面。
借助这个定理，我们可以先对统性可分的这两组点求各自的凸包。不难发现， SVM 求得的超平面就是两个凸包上距离最短的两点连线的中垂线，也就是 SHT 定理二维情况中所阐释的分类超平面。根据凸包的性质容易知道，凸包上的点要么是样本点，要么处于两个样本点的连线上。因此，两个凸包间距离最短的两个点可以分为三种情况，两边的点均为样本点，如图3.12(a )所示，两边的点均在样本点的连线上，如图 3.12(b )所示；一边的点为样本点，另一边的点在样本点的连线上，如圄 3.12 (c )所示。从几何上分析即可知道，无论哪种情况两类点的投影均是统性不可分的。
在这里插入图片描述
问题
是否存在一组参数使得SVM训练误差为零？

分析与解答
在这里插入图片描述

问题
训练误差为零的SVM分类器一定存在吗？

分析与解答
在这里插入图片描述

问题
加入松弛变量的SVM的训练误差可以为零吗?

在实际应用中，如果使用 SMO 算法来训练一个加入松弛变量的线性 SVM 模型，并且惩罚因子 C 为任一未知常数，我们是否能得到训练误差为 0 的模型呢?
分析与解答
在这里插入图片描述

第2节逻辑回归

场景描述
逻辑回归( Logistic Regression )可以说是机器学习领域最基础也是最常用的模型，逻辑回归的原理推导以及扩展应用几乎是算法工程师的必备技能。医生病理诊断、银行个人信用评估、邮箱分类 I主极邮件等，无不体现逻辑回归精巧而广泛的应用。本小节将从模型与原理出发，涵盖扩展与应用，一探逻辑回归的真谛。

知识点
逻晤回归，线性回归，多标签分类， Softmax

问题：逻辑回归相比于线性回归，有何异同？

分析与解答
在这里插入图片描述

问题：当使用逻辑回归处理多标签的分类问题时，有哪些常见做法，分别应用于哪些场景，它们之间有怎样的关系？

分析与解答
使用哪一种办法来处理多分类的问题取决于具体问题的定义。

如果一个样本只对应于一个标签，我们可以假设每个样本属于不同标签的概率服从于几何分布，使用多项式逻辑回归( Softmax Regression ) 来进行分类
在这里插入图片描述
当存在样本可能居于多个标签的情况时，我们可以训练 k个二分类的逻辑回归分类器。第 i 个分类器用以区分每个样本是否可以归为第 i 类，训练该分类器时，需要把标签重新整理为“第 i 类标签 ” 与”非第 i 类标签“两类遇过这样的刃、j去 3 我们就解决了每个样本可能拥有多个标签的情况。

第3节决策树

场景描述：
在这里插入图片描述
决策树是一种自上而下，对样本数据进行树开三分类的过程，由结点和有向边组成。结点分为内部结点和叶结点，其中每个内部结点表示一个特征或属性，叶结点表示类别。从顶部根结点开始，所有样本聚在一起。经过根结点的划分，样本被分到不同的子结点中。再根据子结点的特征进一步划分，直至所有样本都被归到某一个类别(即叶结点)中。