概述
中国工信出版集团、人民邮电出版社出版的赵卫东、董亮编著的《机器学习》慕课版
第8章 支持向量机
1.作为一种分类算法,支持向量机的基本原理是什么?
解:支持向量机是一种二分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,支持向量机还包括核技巧,这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。
2.支持向量机适合解决什么问题?
解:支持向量机用于二元分类问题,对于多元分类可以将其分解为多个二元分类问题,再进行分类。
3.支持向量机常用在哪些领域?
解:支持向量机常用在图像分类、文本分类、面部识别以及垃圾邮件检测等领域。
4.支持向量机常用的核函数有哪些?
解:线性核函数:主要用于线性可分的情况。
多项式核函数:一种非稳态核函数,适合于正交归一化后的数据。
径向基核函数:具有很强的灵活性,应用广泛。大多数情况下有较好的性能。
Sigmoid核:来源于MLP中的激活函数,SVM使用Sigmoid相当于一个两层的感知机网络。
5.核函数的选择对支持向量机的性能有何影响?
解:只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用。事实上,对于一个半正定核矩阵,总能找到一个与之对应的映射。核函数的使用,不一定能够准确的划分,只能说使用哪个核函数,能够逼近真实的划分效果。因此特征空间的好坏对支持向量机的性能至关重要。在不知道特征映射的形式时,我们并不知道什么样的核函数是合适的,而核函数也仅是隐式定义了这个特征空间。于是,核函数的选择成为了支持向量机的最大变数。若核函数选择不合适,则意味着映射到一个不合适的特征空间,很可能导致性能不佳。
6.支持向量机在使用过程中会遇到哪些主要问题?如何解决?
解:a.SVM对噪声敏感:少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性。
b.SVM缺失值影响:这里说的缺失数据是指缺失某些特征数据,向量数据不完整。SVM没有处理缺失值的策略(决策树有)。而SVM希望样本在特征空间中线性可分,若存在缺失值它们在该特征维度很难正确的分类(例如SVM要度量距离(distance measurement),高斯核,那么缺失值处理不当就会导致效果很差),所以特征空间的好坏对SVM的性能很重要。缺失特征数据将影响训练结果的好坏。
c.SVM在大数据上存在缺陷:SVM的空间消耗主要是在存储训练样本和核矩阵,由于SVM是借助二次规划来求解支持向量,而求解二次规划将涉及m阶矩阵的计算(m为样本的个数),当m数目很大时该矩阵的存储和计算将耗费大量的内存和运算时间。如果数据量很大,SVM的训练时间就会比较长,所以SVM在大数据的使用中比较受限。
7.举例说明支持向量机的应用过程。
解:新闻主题分类
在人们的日常生活中有各种各样的新闻,例如体育新闻、科技新闻等。判别一个新闻的主题是通过这则新闻中和主题相关的词汇来确定的,例如体育新闻中经常会出现各种体育名词、体育明星等。
运用SVM对新闻进行主题分类的步骤。
a.获取数据集
b.将文本转化为可处理的向量
c.分割数据集
d.支持向量机分类
e.分类结果分析
最后
以上就是贤惠裙子为你收集整理的《机器学习》慕课版课后习题-第8章的全部内容,希望文章能够帮你解决《机器学习》慕课版课后习题-第8章所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复