我是靠谱客的博主 爱撒娇万宝路,最近开发中收集的这篇文章主要介绍机器学习笔试、面试题 三,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1、假定你用一个线性SVM分类器求解二类分类问题,如下图所示,这些用红色圆圈起来的点表示支持向量,如果移除这些圈起来的数据,决策边界(即分离超平面)是否会发生改变?

如果移除这些圈起来的数据,决策边界(即分离超平面)是否会发生改变?

A Yes

B No

正确答案是: B

解析:

从数据的分布来看,移除那三个数据,决策边界不会受影响。
2、如果将数据中除圈起来的三个点以外的其他数据全部移除,那么决策边界是否会改变?

 

A 会

B 不会

正确答案是: B

解析:

决策边界只会被支持向量影响,跟其他点无关。
3、关于SVM泛化误差描述正确的是

A 超平面与支持向量之间距离

B SVM对未知数据的预测能力

C SVM的误差阈值

正确答案是: B

解析:

统计学中的泛化误差是指对模型对未知数据的预测能力
4、以下关于硬间隔hard margin描述正确的是

A SVM允许分类存在微小误差

B SVM允许分类是有大量误差

正确答案是:A

解析:

硬间隔意味着SVM在分类时很严格,在训练集上表现尽可能好,有可能会造成过拟合。
5、训练SVM的最小时间复杂度为O(n2),那么一下哪种数据集不适合用SVM?

A 大数据集

B 小数据集

C 中等大小数据集

D 和数据集大小无关

正确答案是:A

解析:

有明确分类边界的数据集最适合SVM
6、SVM的效率依赖于

A 核函数的选择

B 核参数

C 软间隔参数

D 以上所有

正确答案是:D

解析:

SVM的效率依赖于以上三个基本要求,它能够提高效率,降低误差和过拟合
7、支持向量是那些最接近决策平面的数据点

A 对

B 错

正确答案是:A

解析:

支持向量就在间隔边界上
8、SVM在下列那种情况下表现糟糕

A 线性可分数据

B 清洗过的数据

C 含噪声数据与重叠数据点

正确答案是:C

解析:

当数据中含有噪声数据与重叠的点时,要画出干净利落且无误分类的超平面很难
9、假定你使用了一个很大γ值的RBF核,这意味着:

A 模型将考虑使用远离超平面的点建模

B 模型仅使用接近超平面的点来建模

C 模型不会被点到超平面的距离所影响

D 以上都不正确

正确答案是: B

解析:

SVM调参中的γ衡量距离超平面远近的点的影响。
对于较小的γ,模型受到严格约束,会考虑训练集中的所有点,而没有真正获取到数据的模式、对于较大的γ,模型能很好地学习到模型。
10、SVM中的代价参数表示:

A 交叉验证的次数

B 使用的核

C 误分类与模型复杂性之间的平衡

D 以上均不是

正确答案是:C

解析:

代价参数决定着SVM能够在多大程度上适配训练数据。
如果你想要一个平稳的决策平面,代价会比较低;如果你要将更多的数据正确分类,代价会比较高。可以简单的理解为误分类的代价。
1、假定你使用SVM学习数据X,数据X里面有些点存在错误。现在如果你使用一个二次核函数,多项式阶数为2,使用松弛变量C作为超参之一。
当你使用较大的C(C趋于无穷),则:

A 仍然能正确分类数据

B 不能正确分类

C 不确定

D 以上均不正确

正确答案是:A

解析:

采用更大的C,误分类点的惩罚就更大,因此决策边界将尽可能完美地分类数据。
  1. 当C趋于无穷大时,这个问题也就是不允许出现分类误差的样本存在,那这就是一个hard-margin SVM问题(过拟合)
  2. 当C趋于0时,我们不再关注分类是否正确,只要求间隔越大越好,那么我们将无法得到有意义的解且算法不会收敛。(欠拟合)
2、假定你使用SVM学习数据X,数据X里面有些点存在错误。现在如果你使用一个二次核函数,多项式阶数为2,使用松弛变量C作为超参之一。
如果使用较小的C(C趋于0),则:

A 误分类

B 正确分类

C 不确定

D 以上均不正确

正确答案是:A

解析:

分类器会最大化大多数点之间的间隔,少数点会误分类,因为惩罚太小了。
3、如果我使用数据集的全部特征并且能够达到100%的准确率,但在测试集上仅能达到70%左右,这说明:

A 欠拟合

B 模型很棒

C 过拟合

正确答案是:C

解析:

如果在训练集上模型很轻易就能达到100%准确率,就要检查是否发生过拟合
4、下面哪个属于SVM应用

A 文本和超文本分类

B 图像分类

C 新文章聚类

D 以上均是

正确答案是:D

解析:

SVM广泛应用于实际问题中,包括回归,聚类,手写数字识别等。
5、假设你训练SVM后,得到一个线性决策边界,你认为该模型欠拟合。在下次迭代训练模型时,应该考虑:

A 增加训练数据

B 减少训练数据

C 计算更多变量

D 减少特征

正确答案是:C

解析:

由于是欠拟合,最好的选择是创造更多特征带入模型训练。
6、假设你训练SVM后,得到一个线性决策边界,你认为该模型欠拟合。假如你想修改SVM的参数,同样达到模型不会欠拟合的效果,应该怎么做?

A 增大参数C

B 减小参数C

C 改变C并不起作用

D 以上均不正确

正确答案是:A

解析:

增大参数C会得到正则化模型
7、SVM中使用高斯核函数之前通常会进行特征归一化,以下关于特征归一化描述不正确的是?

A 经过特征正则化得到的新特征优于旧特征

B 特征归一化无法处理类别变量

C SVM中使用高斯核函数时,特征归一化总是有用的

正确答案是:C

8、假设现在只有两个类,这种情况下SVM需要训练几次?

A 1

B 2

C 3

D 4

正确答案是:A

解析:

两个类训练1次就可以了
9、假设你训练了一个基于线性核的SVM,多项式阶数为2,在训练集和测试集上准确率都为100%。
如果增加模型复杂度或核函数的多项式阶数,将会发生什么?

A 导致过拟合

B 导致欠拟合

C 无影响,因为模型已达100%准确率

D 以上均不正确

正确答案是:A

解析:

增加模型复杂度会导致过拟合
10、想象一下,机器学习中有1000个输入特征和1个目标特征,必须根据输入特征和目标特征之间的关系选择100个最重要的特征。你认为这是减少维数的例子吗?

A 是

B 不是

正确答案是:A

1、判断:没有必要有一个用于应用维数降低算法的目标变量。

A 真

B 假

正确答案是:A

解析:

LDA是有监督降维算法的一个例子。
2、在数据集中有4个变量,如A,B,C和D.执行了以下操作:
步骤1:使用上述变量创建另外两个变量,即E = A + 3 * B和F = B + 5 * C + D。
步骤2:然后只使用变量E和F建立了一个随机森林模型。
上述步骤可以表示降维方法吗?

A 真

B 假

正确答案是:A

解析:

因为步骤1可以用于将数据表示为2个较低的维度。 
3、以下哪种技术对于减少数据集的维度会更好?

A 删除缺少值太多的列

B 删除数据差异较大的列

C 删除不同数据趋势的列

D 都不是

正确答案是:A

解析:

如果列的缺失值太多(例如99%),那么可以删除这些列
4、判断:降维算法是减少构建模型所需计算时间的方法之一。

A 真

B 假

正确答案是:A

解析:

降低数据维数将花费更少的时间来训练模型。
5、以下哪种算法不能用于降低数据的维数? 

A t-SNE

B PCA

C LDA

D 都不是

正确答案是:D

解析:

所有算法都是降维算法的例子。
6、判断:PCA可用于在较小维度上投影和可视化数据。

A 真

B 假

正确答案是:A

解析:

有时绘制较小维数据非常有用,可以使用前两个主要分量,然后使用散点图可视化数据。
7、最常用的降维算法是PCA,以下哪项是关于PCA的?
1.PCA是一种无监督的方法
2.它搜索数据具有最大差异的方向
3.主成分的最大数量<=特征能数量
4.所有主成分彼此正交

A 2、3和4

B 1、2和3

C 1、2和4

D 以上所有

正确答案是:D

8、假设使用维数降低作为预处理技术,使用PCA将数据减少到k维度。然后使用这些PCA预测作为特征,以下哪个声明是正确的?

A 更高的“k”意味着更正则化

B 更高的“k”意味着较少的正则化

C 都不对

正确答案是: B

解析:

较高的k导致较少的平滑,因此能够保留更多的数据特征,从而减少正则化。
K越高。则意味着特征越大,特征越多,就有可能导致训练不充分,训练不充分就可能导致欠拟合,欠拟合自然就需要更少的正则化。
9、在相同的机器上运行并设置最小的计算能力,以下哪种情况下t-SNE比PCA降维效果更好?

A 具有1百万项300个特征的数据集

B 具有100000项310个特征的数据集

C 具有10,000项8个特征的数据集

D 具有10,000项200个特征的数据集

正确答案是:C

解析:

t-SNE具有二次时空复杂度。
tsne的复杂度很高,所以不适合大规模的数据降维,样本数量和特征尽量少
10、对于t-SNE代价函数,以下陈述中的哪一个正确? 

A 本质上是不对称的

B 本质上是对称的

C 与SNE的代价函数相同

正确答案是: B

解析:

SNE代价函数是不对称的,这使得使用梯度下降难以收敛。对称是SNE和t-SNE代价函数之间的主要区别之一。
1、想像正在处理文本数据,使用单词嵌入(Word2vec)表示使用的单词。在单词嵌入中,最终会有1000维。现在想减小这个高维数据的维度,这样相似的词应该在最邻近的空间中具有相似的含义。在这种情况下,您最有可能选择以下哪种算法?

A t-SNE

B PCA

C LDA

D 都不是

正确答案是:A

解析:

t-SNE代表t分布随机相邻嵌入,它考虑最近的邻居来减少数据。
2、判断:t-SNE学习非参数映射。

A 真

B 假

正确答案是:A

解析:

t-SNE学习非参数映射,这意味着它不会学习将数据从输入空间映射到地图的显式函数。
3、以下对于t-SNE和PCA的陈述中哪个是正确的?

A t-SNE是线性的,而PCA是非线性的

B t-SNE和PCA都是线性的

C t-SNE和PCA都是非线性的

D t-SNE是非线性的,而PCA是线性的

正确答案是:D

4、在t-SNE算法中,可以调整以下哪些超参数?

A 维度数量

B 平稳测量有效数量的邻居

C 最大迭代次数

D 以上所有

正确答案是:D

5、与PCA相比,t-SNE的以下说明哪个正确? 

A 数据巨大(大小)时,t-SNE可能无法产生更好的结果。

B 无论数据的大小如何,T-NSE总是产生更好的结果。

C 对于较小尺寸的数据,PCA总是比t-SNE更好。

D 都不是

正确答案是:A

6、Xi和Xj是较高维度表示中的两个不同点,其中Yi和Yj是较低维度中的Xi和Xj的表示。
1.数据点Xi与数据点Xj的相似度是条件概率p(j | i)。
2.数据点Yi与数据点Yj的相似度是条件概率q(j | i)。
对于在较低维度空间中的Xi和Xj的完美表示,以下哪一项必须是正确的?

A p(j | i)= 0,q(j | i)= 1

B p(j | i)

C p(j | i)= q(j | i)

D P(j | i)> q(j | i)

正确答案是:C

解析:

两点的相似性的条件概率必须相等,因为点之间的相似性必须在高维和低维中保持不变,以使它们成为完美的表示
7、对于投影数据为(( √2),(0),(√2))。现在如果在二维空间中重建,并将它们视为原始数据点的重建,那么重建误差是多少?

A 0%

B 10%

C 30%

D 40%

正确答案是:A

解析:

重建误差为0,因为所有三个点完全位于第一个主要分量的方向上或者计算重建;
8、LDA的以下哪项是正确的?

A LDA旨在最大化之间类别的距离,并最小化类内之间的距离

B LDA旨在最小化类别和类内之间的距离

C LDA旨在最大化类内之间的距离,并最小化类别之间的距离

D LDA旨在最大化类别和类内之间的距离

正确答案是:A

9、LDA的思想是找到最能区分两类别之间的线,下图中哪个是好的投影?

 A LD1

B LD2

C 两者

D 都不是

正确答案是:A,

10、以下哪种情况LDA会失败?

A 如果有辨识性的信息不是平均值,而是数据的方差

B 如果有辨识性的信息是平均值,而不是数据方差

C 如果有辨识性的信息是数据的均值和方差

D 都不是

正确答案是:A

1、PCA和LDA的以下比较哪些是正确的?
1. LDA和PCA都是线性变换技术
2. LDA是有监督的,而PCA是无监督的
3. PCA最大化数据的方差,而LDA最大化不同类之间的分离

A 1和2

B 1和3

C 只有3

D 1、2和3

正确答案是:D

2、PCA是一种很好的技术,因为它很容易理解并通常用于数据降维。获得特征值λ1≥λ2≥•••≥λN并画图。
看看f(M)(贡献率)如何随着M而增加,并且在M = D处获得最大值1,给定两图: 

上述哪个图表显示PCA的性能更好?其中M是主要分量,D是特征的总数。

A 左图

B 右图

正确答案是:A

解析:如果f(M)渐近线快速到达1,则PCA是好的;如果第一个特征值较大且其余较小,则会发生这种情况。如果所有特征值大致相等,PCA是坏的。

3、以下哪个选项是真的?

A LDA明确地尝试对数据类别之间的差异进行建模,而PCA没有。

B 两者都试图模拟数据类之间的差异。

C PCA明确地试图对数据类别之间的差异进行建模,而LDA没有。

D 两者都不试图模拟数据类之间的差异。

正确答案是:A

4、应用PCA后,以下哪项可以是前两个主成分?
1.(0.5,0.5,0.5,0.5)和(0.71,0.71,0,0)
2. (0.5,0.5,0.5,0.5)和(0,0,-0.71,0.71)
3. (0.5,0.5,0.5,0.5)和(0.5,0.5,-0.5,-0.5)
4. (0.5,0.5,0.5,0.5)和(-0.5,-0.5,0.5,0.5)

A 1和2

B 1和3

C 2和4

D 3和4

正确答案是:D

解析:对于前两个选择,两个向量不是正交的

5、以下哪一项给出了逻辑回归与LDA之间的差异?
1. 如果类别分离好,逻辑回归的参数估计可能不稳定。
2. 如果样本量小,并且每个类的特征分布是正常的。在这种情况下,线性判别分析比逻辑回归更稳定。

A 1

B 2

C 1和2

D 都不是

正确答案是:C

6、在PCA中会考虑以下哪个偏差?

A 垂直偏移

B 正交偏移

C两者

D 都不是

正确答案是: B

解析:总是将残差视为垂直偏移,正交偏移在PCA的情况下是有用的。

7、下面是三个散点图(A,B,C,从左到右)和和手绘的逻辑回归决策边界。
上图中哪一个显示了决策边界过度拟合训练数据?

A A

B B

C C

D 这些都没有

正确答案是:C

解析: 由于在图3中,决策边界不平滑,表明其过度拟合数据。

8、假设正在处理10类分类问题,并且想知道LDA最多可以产生几个判别向量。以下哪个是正确答案?

A 20

B 9

C 21

D 11

正确答案是: B

解析:LDA最多产生c-1个判别向量。

9、给定的数据集包括“胡佛塔”和其他一些塔的图像。现在要使用PCA(特征脸)和最近邻方法来构建一个分类器,可以预测新图像是否显示“胡佛塔”。该图给出了输入的训练图像样本
为了从“特征脸”算法获得合理的性能,这些图像将需要什么预处理步骤?
1. 将塔对准图像中相同的位置。
2. 将所有图像缩放或裁剪为相同的大小。

A 1

B 2

C 1和2

D都不是

正确答案是:C

0、下图中主成分的最佳数量是多少?

A 7

B 30

C 40

D 不知道

正确答案是: B

解析:可以在上图中看到,主成分的数量为30时以最小的数量得到最大的方差。

 

 

 

最后

以上就是爱撒娇万宝路为你收集整理的机器学习笔试、面试题 三的全部内容,希望文章能够帮你解决机器学习笔试、面试题 三所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(47)

评论列表共有 0 条评论

立即
投稿
返回
顶部