BAT 机器学习 1000 题 601-700（转）

110 阅读 0 评论 73 点赞

我是靠谱客的博主爱撒娇裙子，这篇文章主要介绍BAT 机器学习 1000 题 601-700（转），现在分享给大家，希望可以做个参考。

BAT 机器学习 1000 题 601-700（转）

https://github.com/wizardforcel/data-science-notebook/blob/master/ml/BAT_%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0_1000_%E9%A2%98/601-700.md#601%E9%A2%98

601题

以下对于t-SNE和PCA的陈述中哪个是正确的？

A、t-SNE是线性的，而PCA是非线性的

B、t-SNE和PCA都是线性的

C、t-SNE和PCA都是非线性的

D、t-SNE是非线性的，而PCA是线性的

正确答案是：D

602题

在t-SNE算法中，可以调整以下哪些超参数？

A、维度数量

B、平稳测量有效数量的邻居

C、最大迭代次数

D、以上所有

正确答案是：D

解析：

选项中的所有超参数都可以调整。

603题

与PCA相比，t-SNE的以下说明哪个正确？

A、数据巨大（大小）时，t-SNE可能无法产生更好的结果。

B、无论数据的大小如何，T-NSE总是产生更好的结果。

C、对于较小尺寸的数据，PCA总是比t-SNE更好。

D、都不是

正确答案是：A

604题

Xi和Xj是较高维度表示中的两个不同点，其中Yi和Yj是较低维度中的Xi和Xj的表示。

1)数据点Xi与数据点Xj的相似度是条件概率p（j | i）。

2)数据点Yi与数据点Yj的相似度是条件概率q（j | i）。

对于在较低维度空间中的Xi和Xj的完美表示，以下哪一项必须是正确的？

A、p（j | i）= 0，q（j | i）= 1

B、p（j | i）

C、p（j | i）= q（j | i）

D、P（j | i）> q（j | i）

正确答案是：C

解析：

两点的相似性的条件概率必须相等，因为点之间的相似性必须在高维和低维中保持不变，以使它们成为完美的表示。

605题

对于投影数据为(( √2)，(0)，(√2))。现在如果在二维空间中重建，并将它们视为原始数据点的重建，那么重建误差是多少？

A、0％

B、10％

C、30％

D、40％

正确答案是：A

解析：

重建误差为0，因为所有三个点完全位于第一个主要分量的方向上或者计算重建;

606题

LDA的以下哪项是正确的？

null

A、LDA旨在最大化之间类别的距离，并最小化类内之间的距离

B、LDA旨在最小化类别和类内之间的距离

C、LDA旨在最大化类内之间的距离，并最小化类别之间的距离

D、LDA旨在最大化类别和类内之间的距离

正确答案是：A

607题

LDA的思想是找到最能区分两类别之间的线，下图中哪个是好的投影？

null

A、LD1

B、LD2

C、两者

D、都不是

正确答案是：A

608题

以下哪种情况LDA会失败？

A、如果有辨识性的信息不是平均值，而是数据的方差

B、如果有辨识性的信息是平均值，而不是数据方差

C、如果有辨识性的信息是数据的均值和方差

D、都不是

正确答案是：A

609题

PCA和LDA的以下比较哪些是正确的？

1)LDA和PCA都是线性变换技术

LDA是有监督的，而PCA是无监督的
PCA最大化数据的方差，而LDA最大化不同类之间的分离

A、1和2

B、1和3

C、只有3

D、1、2和3

正确答案是：D

610题

PCA是一种很好的技术，因为它很容易理解并通常用于数据降维。获得特征值λ1≥λ2≥•••≥λN并画图。

null

看看f(M)（贡献率）如何随着M而增加，并且在M = D处获得最大值1，给定两图：

null

上述哪个图表显示PCA的性能更好？其中M是主要分量，D是特征的总数。

A、左图

B、右图

正确答案是：A

解析：

如果f（M）渐近线快速到达1，则PCA是好的；如果第一个特征值较大且其余较小，则会发生这种情况。如果所有特征值大致相等，PCA是坏的。

611题

以下哪个选项是真的？

A、LDA明确地尝试对数据类别之间的差异进行建模，而PCA没有。

B、两者都试图模拟数据类之间的差异。

C、PCA明确地试图对数据类别之间的差异进行建模，而LDA没有。

D、两者都不试图模拟数据类之间的差异。

正确答案是：A

612题

应用PCA后，以下哪项可以是前两个主成分？

(0.5,0.5,0.5,0.5)和(0.71,0.71,0,0)
(0.5,0.5,0.5,0.5)和(0,0，-0.71,0.71)
(0.5,0.5,0.5,0.5)和(0.5,0.5,-0.5,-0.5)
(0.5,0.5,0.5,0.5)和(-0.5,-0.5,0.5,0.5)

A、1和2

B、1和3

C、2和4

D、3和4

正确答案是：D

解析：

对于前两个选择，两个向量不是正交的。

613题

以下哪一项给出了逻辑回归与LDA之间的差异？

如果类别分离好，逻辑回归的参数估计可能不稳定。
如果样本量小，并且每个类的特征分布是正常的。在这种情况下，线性判别分析比逻辑回归更稳定。

A、1

B、2

C、1和2

D、都不是

正确答案是：C

614题

在PCA中会考虑以下哪个偏差？

null

A、垂直偏移

B、正交偏移

C、两者

D、都不是

正确答案是： B

解析：

总是将残差视为垂直偏移，正交偏移在PCA的情况下是有用的。

615题

下面是三个散点图（A，B，C，从左到右）和和手绘的逻辑回归决策边界。

null

上图中哪一个显示了决策边界过度拟合训练数据？

A、A

B、B

C、C

D、这些都没有

正确答案是：C

解析：

答案：C由于在图3中，决策边界不平滑，表明其过度拟合数据。

616题

假设正在处理10类分类问题，并且想知道LDA最多可以产生几个判别向量。以下哪个是正确答案？

A、20

B、9

C、21

D、11

正确答案是： B

解析：

LDA最多产生c-1个判别向量。

617题

给定的数据集包括“胡佛塔”和其他一些塔的图像。现在要使用PCA（特征脸）和最近邻方法来构建一个分类器，可以预测新图像是否显示“胡佛塔”。该图给出了输入的训练图像样本

null

为了从“特征脸”算法获得合理的性能，这些图像将需要什么预处理步骤？

1)将塔对准图像中相同的位置。

将所有图像缩放或裁剪为相同的大小。

A、1

B、2

C、1和2

D、都不是

正确答案是：C

618题

下图中主成分的最佳数量是多少？

null

A、7

B、30

C、40

D、不知道

正确答案是： B

解析：

可以在上图中看到，主成分的数量为30时以最小的数量得到最大的方差。

619题

下面是三个散点图（A，B，C，从左到右）和和手绘的逻辑回归决策边界。

null

正则化项惩罚度最高的是？

A、A

B、B

C、C

D、都具有相同的正则化

正确答案是：A

解析：

答案：A因为正则化意味着更多的罚值和图A所示的较简单的决策界限。

620题

下图显示了三个逻辑回归模型的AUC-ROC曲线。不同的颜色表示不同超参数值的曲线。以下哪个AUC-ROC会给出最佳结果？

null

A、黄色

B、粉红色

C、黑色

D、都相同

正确答案是：A

解析：

答案：A最佳分类是曲线下区域面积最大者，而黄线在曲线下面积最大。

621题

如果对相同的数据进行逻辑回归，将花费更少的时间，并给出比较相似的精度（也可能不一样），怎么办？假设在庞大的数据集上使用Logistic回归模型。可能遇到一个问题，Logistic回归需要很长时间才能训练。

A、降低学习率，减少迭代次数

B、降低学习率，增加迭代次数

C、提高学习率，增加迭代次数

D、增加学习率，减少迭代次数

正确答案是：D

解析：

答案：D如果在训练时减少迭代次数，就能花费更少的时间获得相同的精度，但需要增加学习率。

622题

Logistic regression（逻辑回归）是一种监督式机器学习算法吗？

A、是

B、否

正确答案是：A

解析：

当然，Logistic regression是一种监督式学习算法，因为它使用真假标签进行测试。测试模型时，监督式学习算法应具有输入变量（x）和目标变量（Y）。

623题

Logistic Regression主要用于回归吗？

A、是

B、否

正确答案是： B

解析：

逻辑回归是一种分类算法，不要因为名称将其混淆。

624题

是否能用神经网络算法设计逻辑回归算法？

A、是

B、否

正确答案是：A

解析：

是的，神经网络是一种通用逼近器，因此能够实现线性回归算法。

625题

是否可以对三分问题应用逻辑回归算法？

A、是

B、否

正确答案是：A

解析：

当然可以对三分问题应用逻辑回归，只需在逻辑回归中使用One Vs all方法。

626题

以下哪种方法能最佳地适应逻辑回归中的数据？

A、Least Square Error

B、Maximum Likelihood

C、Jaccard distance

D、Both A and B

正确答案是： B

解析：

Logistic Regression使用可能的最大似然估值来测试逻辑回归过程。

627题

在逻辑回归输出与目标对比的情况下，以下评估指标中哪一项不适用？

A、AUC-ROC

B、准确度

C、Logloss

D、均方误差

正确答案是：D

解析：

因为Logistic Regression是一个分类算法，所以它的输出不能是实时值，所以均方误差不能用于评估它。

628题

如下逻辑回归图显示了3种不同学习速率值的代价函数和迭代次数之间的关系（不同的颜色在不同的学习速率下显示不同的曲线）。

null

为了参考而保存图表后，忘记其中不同学习速率的值。现在需要曲线的倾斜率值之间的关系。以下哪一个是正确的？

注：

1)蓝色的学习率是L1

2)红色的学习率是L2

3)绿色学习率为lL3

A、L1> L2> L3

B、L1 = L2 = L3

C、L1

D、都不是

正确答案是：C

解析：

答案：C如果学习速率低下，代价函数将缓慢下降，学习速度过高，则其代价函数会迅速下降。

629题

分析逻辑回归表现的一个良好的方法是AIC，它与线性回归中的R平方相似。有关AIC，以下哪项是正确的？

A、具有最小AIC值的模型更好

B、具有最大AIC值的模型更好

C、视情况而定

D、以上都不是

正确答案是：A

解析：

AIC信息准则即Akaike information criterion，是衡量统计模型拟合优良性的一种标准，由于它为日本统计学家赤池弘次创立和发展的，因此又称赤池信息量准则。

考虑到AIC=2k-2In(L) ，所以一般而言，当模型复杂度提高（k增大）时，似然函数L也会增大，从而使AIC变小，但是k过大时，似然函数增速减缓，导致AIC增大，模型过于复杂容易造成过拟合现象。目标是选取AIC最小的模型，AIC不仅要提高模型拟合度（极大似然），而且引入了惩罚项，使模型参数尽可能少，有助于降低过拟合的可能性。

综上，我们一般选择逻辑回归中最少的AIC作为最佳模型。有关更多信息，请参阅此来源：www4.ncsu.edu/~shu3/Presentation/AIC.pdf

630题

在训练逻辑回归之前需要对特征进行标准化。

A、是

B、否

正确答案是： B

解析：

逻辑回归不需要标准化。功能标准化的主要目标是帮助优化技术组合。

631题

选择Logistic回归中的One-Vs-All方法中的哪个选项是真实的。

A、我们需要在n类分类问题中适合n个模型

B我们需要适合n-1个模型来分类为n个类

C、我们需要只适合1个模型来分类为n个类

D、这些都没有

正确答案是：A

解析：

如果存在n个类，那么n个单独的逻辑回归必须与之相适应，其中每个类的概率由剩余类的概率之和确定。

632题

使用以下哪种算法进行变量选择？

A、LASSO

B、Ridge

C、两者

D、都不是

正确答案是：A

解析：

使用Lasso的情况下，我们采用绝对罚函数，在增加Lasso中罚值后，变量的一些系数可能变为零。

633题

以下是两种不同的对数模型，分别为β0和β1。

null

对于两种对数模型（绿色，黑色）的β0和β1值，下列哪一项是正确的？注： Y =β0+β1* X。其中β0是截距，β1是系数。

A、绿色的β1大于黑色

B、绿色的β1小于黑色

C、两种颜色的β1相同

D、不能说

正确答案是： B

解析：

β0和β1：β0= 0，β1= 1为X1颜色（黑色），β0= 0，β1= -1为X4颜色（绿色）

634题

逻辑回归的以下模型：P（y = 1 | x，w）= g（w0 + w1x）其中g（z）是逻辑函数。在上述等式中，通过改变参数w可以得到的P（y = 1 | x; w）被视为x的函数。

A、（0，inf）

B、（-inf，0）

C、（0,1）

D、（-inf，inf）

正确答案是：C

解析：

对于从-∞到+∞的实数范围内的x的值。逻辑函数将给出（0,1）的输出。

635题

下面是三个散点图（A，B，C，从左到右）和和手绘的逻辑回归决策边界。

null

上图中哪一个显示了决策边界过度拟合训练数据？

A、A

B、B

C、C

D、这些都没有

正确答案是：C

解析：

由于在图3中，决策边界不平滑，表明其过度拟合数据。

636题

逻辑回归的以下模型：P（y = 1 | x，w）= g（w0 + w1x）其中g（z）是逻辑函数。在上述等式中，通过改变参数w可以得到的P（y = 1 | x; w）被视为x的函数。在上面的问题中，你认为哪个函数会产生（0,1）之间的p？

A、逻辑函数

B、对数似然函数

C、两者的复合函数

D、都不会

正确答案是：A

解析：

对于从-∞到+∞的实数范围内的x的值。逻辑函数将给出（0,1）的输出。

637题

下面是三个散点图（A，B，C，从左到右）和和手绘的逻辑回归决策边界。

null

根据可视化后的结果，能得出什么结论？

1)与第二和第三图相比，第一幅图中的训练误差最大

2)该回归问题的最佳模型是最后（第三个）图，因为它具有最小的训练误差（零）

3)第二个模型比第一个和第三个更强，它在不可见数据中表现最好

4)与第一种和第二种相比，第三种模型过度拟合了

5)所有的模型执行起来都一样，因为没有看到测试数据。

A、1和3

B、1和3

C、1,3和4

D、5

正确答案是：C

解析：

图中趋势像是自变量X的二次趋势。更高次方的多项式（右图）可能对训练中的数据群具有超高的精度，但预计在测试数据集上将会严重失败。但是在左图中可以测试最大错误值，因为适合训练数据

638题

下面是三个散点图（A，B，C，从左到右）和和手绘的逻辑回归决策边界。

null

假设上述决策边界是针对不同的正则化（regularization）值生成的。那么其中哪一个显示最大正则化？

A、A

B、B

C、C

D、都具有相同的正则化

正确答案是：A

解析：

因为正则化意味着更多的罚值和图A所示的较简单的决策界限。

639题

下图显示了三个逻辑回归模型的AUC-ROC曲线。不同的颜色表示不同超参数值的曲线。以下哪个AUC-ROC会给出最佳结果？

null

A、黄色

B、粉红色

C、黑色

D、都相同

正确答案是：A

解析：

最佳分类是曲线下区域面积最大者，而黄线在曲线下面积最大。

640题

假设你在测试逻辑回归分类器，设函数H为

null

下图中的哪一个代表上述分类器给出的决策边界？

null

正确答案是： B

解析：

选项B正确。虽然我们的式子由选项A和选项B所示的y = g（-6 + x2）表示，但是选项B才是正确的答案，因为当将x2 = 6的值放在等式中时，要使y = g（0）就意味着y = 0.5将在线上，如果你将x2的值增加到大于6，你会得到负值，所以输出将是区域y = 0。

641题

所谓几率，是指发生概率和不发生概率的比值。所以，抛掷一枚正常硬币，正面朝上的几率（odds）为多少？

A、0.5

B、1

C、都不是

正确答案是： B

解析：

几率（odds）是事件发生不发生概率的比率，正面朝上概率为1/2和反面朝上的概率都为1/2，所以几率为1。

642题

Logit函数（给定为l（x））是几率函数的对数。域x = [0,1]中logit函数的范围是多少？

A、（ - ∞，∞）

B、（0,1）

C、（0，∞）

D、（ - ∞，0）

正确答案是：A

解析：

为了与目标相适应，几率函数具有将值从0到1的概率函数变换成值在0和∞之间的等效函数的优点。当我们采用几率函数的自然对数时，我们便能范围是-∞到∞的值。

643题

如果对相同的数据进行逻辑回归，将花费更少的时间，并给出比较相似的精度（也可能不一样），怎么办？（假设在庞大的数据集上使用Logistic回归模型。可能遇到一个问题，Logistic回归需要很长时间才能训练。）

A、降低学习率，减少迭代次数

B、降低学习率，增加迭代次数

C、提高学习率，增加迭代次数

D、增加学习率，减少迭代次数

正确答案是：D

解析：

如果在训练时减少迭代次数，就能花费更少的时间获得相同的精度，但需要增加学习率。

644题

以下哪些选项为真？

A、线性回归误差值必须正态分布，但是在Logistic回归的情况下，情况并非如此

B、逻辑回归误差值必须正态分布，但是在线性回归的情况下，情况并非如此

C、线性回归和逻辑回归误差值都必须正态分布

D、线性回归和逻辑回归误差值都不能正态分布

正确答案是：A

解析：

只有A是真的。请参考教程 czep.net/stat/mlelr.pdf

645题

以下哪个图像显示y = 1的代价函数？以下是两类分类问题的逻辑回归（Y轴损失函数和x轴对数概率）的损失函数。

null

注：Y是目标类

A、A

B、B

C、两者

D、这些都没有

正确答案是：A

解析：

A正确，因为损失函数随着对数概率的增加而减小

646题

以下不属于影响聚类算法结果的主要因素有

A 已知类别的样本质量

B 分类准则

C 特征选取

D 模式相似性测度

正确答案是：A

解析：

都已知了，就不必再进行聚类了。

647题

2、模式识别中，不属于马式距离较之于欧式距离的优点的是

A 平移不变性

B 尺度不变性

C 考虑了模式的分布

正确答案是：A

648题

3、影响基本K-均值算法的主要因素有

A 样本输入顺序

B 模式相似性测度

C 聚类准则

正确答案是： B

649题

4、在统计模式分类问题中，当先验概率未知时，可以使用

A 最小损失准则

B 最小最大损失准则

C 最小误判概率准则

正确答案是： B

650题

5、如果以特征向量的相关系数作为模式相似性测度，则影响聚类算法结果的主要因素有

A已知类别样本质量

B分类准则

C量纲

正确答案是： B

651题

对于任意值“x”，考虑到Logistic（x）：是任意值“x”的逻辑（Logistic）函数Logit（x）：是任意值“x”的logit函数Logit_inv（x）：是任意值“x”的逆逻辑函数以下哪一项是正确的？

A、Logistic（x）= Logit（x）

B、Logistic（x）= Logit_inv（x）

C、Logit_inv（x）= Logit（x）

D、都不是

正确答案是： B

解析：

答案B请参阅此链接以获取答案：https：//en.wikipedia.org/wiki/Logit

652题

假设，下图是逻辑回归的代价函数

null

现在，图中有多少个局部最小值？

A、1

B、2

C、3

D、4

正确答案是：D

解析：

图中总共有四个凹的地方，故有四个局部最小值。

653题

使用 high(infinite) regularisation时偏差会如何变化？

null

有散点图“a”和“b”两类（蓝色为正，红色为负）。在散点图“a”中，使用了逻辑回归（黑线是决策边界）对所有数据点进行了正确分类。

A、偏差很大

B、偏差很小

C、不确定

D、都不是

正确答案是：A

解析：

模型变得过于简单，所以偏差会很大。

654题

Logistic回归分类器是否能对下列数据进行完美分类？

null

注：只可使用X1和X2变量，且只能使用两个二进制值（0,1）。

A、是

B、否

C、不确定

D、都不是

正确答案是： B

解析：

逻辑回归只能形成线性决策面，而图中的例子并非线性可分的。

655题

假设对给定数据应用了Logistic回归模型，并获得了训练精度X和测试精度Y。现在要在同一数据中添加一些新特征，以下哪些是错误的选项。注：假设剩余参数相同。

A、训练精度提高

B、训练准确度提高或保持不变

C、测试精度提高或保持不变

正确答案是： B

解析：

将更多的特征添加到模型中会增加训练精度，因为模型必须考虑更多的数据来适应逻辑回归。但是，如果发现特征显着，则测试精度将会增加。

656题

选择Logistic回归中的One-Vs-All方法中的哪个选项是真实的。

A、我们需要在n类分类问题中适合n个模型

B、我们需要适合n-1个模型来分类为n个类

C、我们需要只适合1个模型来分类为n个类

D、这些都没有

正确答案是：A

解析：

答案：A如果存在n个类，那么n个单独的逻辑回归必须与之相适应，其中每个类的概率由剩余类的概率之和确定。

657题

假设有一个如下定义的神经网络：

null

如果我们去掉ReLU层，这个神经网络仍能够处理非线性函数，这种说法是：

A、正确的

B、错误的

正确答案是： B

658题

假定特征 F1 可以取特定值：A、B、C、D、E 和 F，其代表着学生在大学所获得的评分。在下面说法中哪一项是正确的？

A、特征 F1 是名义变量（nominal variable）的一个实例。

B、特征 F1 是有序变量（ordinal variable）的一个实例。

C、该特征并不属于以上的分类。

D、以上说法都正确。

正确答案是： B

解析：

答案为（B）：有序变量是一种在类别上有某些顺序的变量。例如，等级 A 就要比等级 B 所代表的成绩好一些。

659题

下面哪个选项中哪一项属于确定性算法？

A、PCA

B、K-Means

C、以上都不是

正确答案是：A

解析：

答案为（A）：确定性算法表明在不同运行中，算法输出并不会改变。如果我们再一次运行算法，PCA 会得出相同的结果，而 k-means 不会。

660题

两个变量的 Pearson 相关性系数为零，但这两个变量的值同样可以相关。

A、正确

B、错误

正确答案是：A

解析：

答案为（A）：Y=X2，请注意他们不仅仅相关联，同时一个还是另一个的函数。尽管如此，他们的相关性系数还是为 0，因为这两个变量的关联是正交的，而相关性系数就是检测这种关联。详情查看：https://en.wikipedia.org/wiki/Anscombe's_quartet

661题

下面哪一项对梯度下降（GD）和随机梯度下降（SGD）的描述是正确的？

1 在 GD 和 SGD 中，每一次迭代中都是更新一组参数以最小化损失函数。

2 在 SGD 中，每一次迭代都需要遍历训练集中的所有样本以更新一次参数。

3 在 GD 中，每一次迭代需要使用整个训练集或子训练集的数据更新一个参数。

A、只有 1

B、只有 2

C、只有 3

D、都正确

正确答案是：A

解析：

答案为（A）：在随机梯度下降中，每一次迭代选择的批量是由数据集中的随机样本所组成，但在梯度下降，每一次迭代需要使用整个训练数据集。

662题

下面哪个/些超参数的增加可能会造成随机森林数据过拟合？

1 树的数量

2 树的深度

3 学习速率

A、只有 1

B、只有 2

C、只有 3

D、都正确

正确答案是： B

解析：

答案为（B）：通常情况下，我们增加树的深度有可能会造成模型过拟合。学习速率在随机森林中并不是超参数。增加树的数量可能会造成欠拟合。

663题

假如你在「Analytics Vidhya」工作，并且想开发一个能预测文章评论次数的机器学习算法。你的分析的特征是基于如作者姓名、作者在 Analytics Vidhya 写过的总文章数量等等。那么在这样一个算法中，你会选择哪一个评价度量标准？

1 均方误差

2 精确度

3 F1 分数

A、只有 1

B、只有 2

C、只有 3

正确答案是：A

解析：

答案为（A）：你可以把文章评论数看作连续型的目标变量，因此该问题可以划分到回归问题。因此均方误差就可以作为损失函数的度量标准。

664题

给定以下三个图表（从上往下依次为1，2，3）. 哪一个选项对以这三个图表的描述是正确的？

null

A、1 是 tanh，2 是 ReLU，3 是 SIGMOID 激活函数

B、1 是 SIGMOID，2 是 ReLU，3 是 tanh 激活函数

C、1 是 ReLU，2 是 tanh，3 是 SIGMOID 激活函数

D、1 是 tanh，2 是 SIGMOID，3 是 ReLU 激活函数

正确答案是：D

解析：

答案为（D）：因为 SIGMOID 函数的取值范围是 [0,1]，tanh 函数的取值范围是 [-1,1]，RELU 函数的取值范围是 [0,infinity]。

665题

以下是目标变量在训练集上的 8 个实际值 [0,0,0,1,1,1,1,1]，目标变量的熵是所少？

A、-(5/8 log(5/8) + 3/8 log(3/8))

B、5/8 log(5/8) + 3/8 log(3/8)

C、3/8 log(5/8) + 5/8 log(3/8)

D、5/8 log(3/8) – 3/8 log(5/8)

正确答案是：A

解析：

答案为（A）：信息熵的公式为：

null

666题

假定你正在处理类属特征，并且没有查看分类变量在测试集中的分布。现在你想将 one hot encoding（OHE）应用到类属特征中。那么在训练集中将 OHE 应用到分类变量可能要面临的困难是什么？

A、分类变量所有的类别没有全部出现在测试集中

B、类别的频率分布在训练集和测试集是不同的

C、训练集和测试集通常会有一样的分布

D、A 和 B 都正确

正确答案是：D

解析：

答案为（D）：A、B 项都正确，如果类别在测试集中出现，但没有在训练集中出现，OHE 将会不能进行编码类别，这将是应用 OHE 的主要困难。选项 B 同样也是正确的，在应用 OHE 时，如果训练集和测试集的频率分布不相同，我们需要多加小心。

667题

Skip gram 模型是在 Word2vec 算法中为词嵌入而设计的最优模型。以下哪一项描绘了 Skip gram 模型？

null

A、A

B、B

C、A和B

D、以上都不是

正确答案是： B

解析：

答案为（B）：这两个模型都是在 Word2vec 算法中所使用的。模型 A 代表着 CBOW，模型 B 代表着 Skip gram。

668题

假定你在神经网络中的隐藏层中使用激活函数 X。在特定神经元给定任意输入，你会得到输出「-0.0001」。X 可能是以下哪一个激活函数？

A、ReLU

B、tanh

C、SIGMOID

D、以上都不是

正确答案是： B

解析：

答案为（B）：该激活函数可能是 tanh，因为该函数的取值范围是 (-1,1)。

669题

对数损失度量函数可以取负值。

A、对

B、错

正确答案是： B

解析：

答案为（B）：对数损失函数不可能取负值。

670题

下面哪个/些对「类型 1（Type-1）」和「类型 2（Type-2）」错误的描述是正确的？

类型 1 通常称之为假正类，类型 2 通常称之为假负类。

类型 2 通常称之为假正类，类型 1 通常称之为假负类。

类型 1 错误通常在其是正确的情况下拒绝假设而出现。

A、只有 1

B、只有 2

C、只有 3

D、1和3

正确答案是：D

解析：

答案为（E）：在统计学假设测试中，I 类错误即错误地拒绝了正确的假设（即假正类错误），II 类错误通常指错误地接受了错误的假设（即假负类错误）。

671题

假定你想将高维数据映射到低维数据中，那么最出名的降维算法是 PCA 和 t-SNE。现在你将这两个算法分别应用到数据「X」上，并得到数据集「X_projected_PCA」，「X_projected_tSNE」。下面哪一项对「X_projected_PCA」和「X_projected_tSNE」的描述是正确的？

A、X_projected_PCA 在最近邻空间能得到解释

B、X_projected_tSNE 在最近邻空间能得到解释

C、两个都在最近邻空间能得到解释

D、两个都不能在最近邻空间得到解释

正确答案是： B

解析：

答案为（B）：t-SNE 算法考虑最近邻点而减少数据维度。所以在使用 t-SNE 之后，所降的维可以在最近邻空间得到解释。但 PCA 不能。

672题

给定下面两个特征的三个散点图（从左到右依次为图 1、2、3）

null

在上面的图像中，哪一个是多元共线（multi-collinear）特征？

A、图 1 中的特征

B、图 2 中的特征

C、图 3 中的特征

D、图 1、2 中的特征

正确答案是：D

解析：

答案为（D）：在图 1 中，特征之间有高度正相关，图 2 中特征有高度负相关。所以这两个图的特征是多元共线特征。

673题

在先前问题中，假定你已经鉴别了多元共线特征。那么下一步你可能的操作是什么？

1 移除两个共线变量

2 不移除两个变量，而是移除一个

3 移除相关变量可能会导致信息损失。为了保留这些变量，我们可以使用带罚项的回归模型（如 ridge 或 lasso regression）。

A、只有 1

B、只有 2

C、只有 3

D、2 或 3

正确答案是：D

解析：

答案为（D）：因为移除两个变量会损失一切信息，所以我们只能移除一个特征，或者也可以使用正则化算法（如 L1 和 L2）。

674题

给线性回归模型添加一个不重要的特征可能会造成：

1 增加 R-square

2 减少 R-square

A、只有 1 是对的

B、只有 2 是对的

C、1 或 2 是对的

D、都不对

正确答案是：A

解析：

答案为（A）：在给特征空间添加了一个特征后，不论特征是重要还是不重要，R-square 通常会增加。

675题

假设给定三个变量 X，Y，Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相关性系数分别为 C1、C2 和 C3。现在 X 的所有值加 2（即 X+2），Y 的全部值减 2（即 Y-2），Z 保持不变。那么运算之后的 (X, Y)、(Y, Z) 和 (X, Z) 相关性系数分别为 D1、D2 和 D3。现在试问 D1、D2、D3 和 C1、C2、C3 之间的关系是什么？

A、D1= C1, D2 < C2, D3 > C3

B、D1 = C1, D2 > C2, D3 > C3

C、D1 = C1, D2 > C2, D3 < C3

D、D1 = C1, D2 < C2, D3 < C3

E、D1 = C1, D2 = C2, D3 = C3

正确答案是：E

解析：

答案为（E）：特征之间的相关性系数不会因为特征加或减去一个数而改变。

676题

假定你现在解决一个有着非常不平衡类别的分类问题，即主要类别占据了训练数据的 99%。现在你的模型在测试集上表现为 99% 的准确度。那么下面哪一项表述是正确的？

1 准确度并不适合于衡量不平衡类别问题

2 准确度适合于衡量不平衡类别问题

3 精确率和召回率适合于衡量不平衡类别问题

4 精确率和召回率不适合于衡量不平衡类别问题

A、1 and 3

B、1 and 4

C、2 and 3

D、2 and 4

正确答案是：A

677题

在集成学习中，模型集成了弱学习者的预测，所以这些模型的集成将比使用单个模型预测效果更好。下面哪个/些选项对集成学习模型中的弱学习者描述正确？

1 他们经常不会过拟合

2 他们通常带有高偏差，所以其并不能解决复杂学习问题

3 他们通常会过拟合

A、1 和 2

B、1 和 3

C、2 和 3

D、只有 1

正确答案是：A

解析：

答案为（A）：弱学习者是问题的特定部分。所以他们通常不会过拟合，这也就意味着弱学习者通常拥有低方差和高偏差。

678题

下面哪个/些选项对 K 折交叉验证的描述是正确的

1 增大 K 将导致交叉验证结果时需要更多的时间

2 更大的 K 值相比于小 K 值将对交叉验证结构有更高的信心

3 如果 K=N，那么其称为留一交叉验证，其中 N 为验证集中的样本数量

A、1 和 2

B、2 和 3

C、1 和 3

D、1、2 和 3

正确答案是：D

解析：

答案为（D)：大 K 值意味着对过高估计真实预期误差（训练的折数将更接近于整个验证集样本数）拥有更小的偏差和更多的运行时间（并随着越来越接近极限情况：留一交叉验证）。我们同样在选择 K 值时需要考虑 K 折准确度和方差间的均衡。

679题

为了得到和 SVD 一样的投射（projection），你需要在 PCA 中怎样做？

A、将数据转换成零均值

B、将数据转换成零中位数

C、无法做到

D、以上方法不行

正确答案是：A

解析：

答案为（A）：当数据有一个 0 均值向量时，PCA 有与 SVD 一样的投射，否则在使用 SVD 之前，你必须将数据均值归 0。

680题

假设存在一个黑箱算法，其输入为有多个观察（t1, t2, t3,…….. tn）的训练数据和一个新的观察（q1）。该黑箱算法输出 q1 的最近邻 ti 及其对应的类别标签 ci。你可以将这个黑箱算法看作是一个 1-NN（1-最近邻）能够仅基于该黑箱算法而构建一个 k-NN 分类算法？注：相对于 k 而言，n（训练观察的数量）非常大。

A、可以

B、不可以

正确答案是：A

解析：

答案为（A）：在第一步，你在这个黑箱算法中传递一个观察样本 q1，使该算法返回一个最近邻的观察样本及其类别，在第二步，你在训练数据中找出最近观察样本，然后再一次输入这个观察样本（q1）。该黑箱算法将再一次返回一个最近邻的观察样本及其类别。你需要将这个流程重复 k 次。

681题

假设存在一个黑箱算法，其输入为有多个观察（t1, t2, t3,…….. tn）的训练数据和一个新的观察（q1）。该黑箱算法输出 q1 的最近邻 ti 及其对应的类别标签 ci。你可以将这个黑箱算法看作是一个 1-NN（1-最近邻）我们不使用 1-NN 黑箱，而是使用 j-NN(j>1) 算法作为黑箱。为了使用 j-NN 寻找 k-NN，下面哪个选项是正确的？

A、 j 必须是 k 的一个合适的因子

B、j>k

C、不能办到

正确答案是：A

解析：

用 1NN 实现 KNN 的话，每次找到最近邻，然后把这项从数据中取出来，重新运行 1NN 算法，这样重复 K 次，就行了。所以，少找多的话，少一定要是多的因子。

682题

有以下 7 副散点图（从左到右分别编号为 1-7），你需要比较每个散点图的变量之间的皮尔逊相关系数。下面正确的比较顺序是？

null

1 1<2<3<4

2 1>2>3 > 4

3 7<6<5<4

4 7>6>5>4

A、1 和 3

B、2 和 3

C、1 和 4

D、2 和 4

正确答案是： B

683题

你可以使用不同的标准评估二元分类问题的表现，例如准确率、log-loss、F-Score。让我们假设你使用 log-loss 函数作为评估标准。下面这些选项，哪个／些是对作为评估标准的 log-loss 的正确解释。

null

1 如果一个分类器对不正确的分类很自信，log-loss 会严重的批评它。

2 对一个特别的观察而言，分类器为正确的类别分配非常小的概率，然后对 log-loss 的相应分布会非常大。

3 log-loss 越低，模型越好。

A、1 和 3

B、2 和 3

C、1 和 2

D、1、2、3

正确答案是：D

684题

假设你被给到以下数据，你想要在给定的两个类别中使用 logistic 回归模型对它进行分类。

null

你正在使用带有 L1 正则化的 logistic 回归，其中 C 是正则化参数，w1 和 w2 是 x1 和 x2 的系数。

null

当你把 C 值从 0 增加至非常大的值时，下面哪个选项是正确的？

A、第一个 w2 成了 0，接着 w1 也成了 0

B、第一个 w1 成了 0，接着 w2 也成了 0

C、w1 和 w2 同时成了 0

D、即使在 C 成为大值之后，w1 和 w2 都不能成 0

正确答案是： B

解析：

答案（B）：通过观察图像我们发现，即使只使用 x2，我们也能高效执行分类。因此一开始 w1 将成 0；当正则化参数不断增加时，w2 也会越来越接近 0。

685题

假设我们有一个数据集，在一个深度为 6 的决策树的帮助下，它可以使用 100% 的精确度被训练。现在考虑一下两点，并基于这两点选择正确的选项。注意：所有其他超参数是相同的，所有其他因子不受影响。

1 深度为 4 时将有高偏差和低方差

2 深度为 4 时将有低偏差和低方差

A、只有 1

B、只有 2

C、1 和 2

D、没有一个

正确答案是：A

解析：

答案（A)：如果在这样的数据中你拟合深度为 4 的决策树，这意味着其更有可能与数据欠拟合。因此，在欠拟合的情况下，你将获得高偏差和低方差。

686题

在 k-均值算法中，以下哪个选项可用于获得全局最小？

1 尝试为不同的质心（centroid）初始化运行算法

2 调整迭代的次数

3 找到集群的最佳数量

A、2 和 3

B、1 和 3

C、1 和 2

D、以上所有

正确答案是：D

解析：

答案（D）：所有都可以用来调试以找到全局最小。

687题

假设你正在做一个项目，它是一个二元分类问题。你在数据集上训练一个模型，并在验证数据集上得到混淆矩阵。基于上述混淆矩阵，下面哪个选项会给你正确的预测。

1 精确度是~0.91

2 错误分类率是~0.91

3 假正率（False correct classification）是~0.95

4 真正率（True positive rate）是~0.95

A、1 和 3

B、2 和 4

C、1 和 4

D、2 和 3

正确答案是：C

解析：

答案（C）：精确度（正确分类）是 (50+100)/165，约等于 0.91。真正率是你正确预测正分类的次数，因此真正率将是 100/105 = 0.95，也被称作敏感度或召回。

688题

对于下面的超参数来说，更高的值对于决策树算法更好吗？

1 用于拆分的样本量

2 树深

3 树叶样本

A、1 和 2

B、2 和 3

C、1 和 3

D、1、2 和 3

E、无法分辨

正确答案是：E

解析：

答案（E）：对于选项 A、B、C 来说，如果你增加参数的值，性能并不一定会提升。例如，如果我们有一个非常高的树深值，结果树可能会过拟合数据，并且也不会泛化。另一方面，如果我们有一个非常低的值，结果树也许与数据欠拟合。因此我们不能确定更高的值对于决策树算法就更好。

689题

想象一下，你有一个 28x28 的图片，并使用输入深度为 3 和输出深度为 8 在上面运行一个 3x3 的卷积神经网络。注意，步幅padding是1，你正在使用相同的填充（padding）。当使用给定的参数时，输出特征图的尺寸是多少？

A、28 宽、28 高、8 深

B、13 宽、13 高、8 深

C、28 宽、13 高、8 深

D、13 宽、28 高、8 深

正确答案是：A

解析：

答案（A）

计算输出尺寸的公式是：输出尺寸=(N – F)/S + 1。其中，N 是输入尺寸，F 是过滤器尺寸，S 是步幅。更多可阅读这篇文章（链接：https://www.analyticsvidhya.com/blog/2016/04/deep-learning-computer-vision-introduction-convolution-neural-networks/）获得更多了解。

690题

假设，我们正在 SVM 算法中为 C（惩罚参数）的不同值进行视觉化绘图。由于某些原因，我们忘记了使用视觉化标注 C 值。这个时候，下面的哪个选项在 rbf 内核的情况下最好地解释了下图（1、2、3 从左到右，图 1 的 C 值是 C 1，图 2 的 C 值是 C 2，图 3 的 C 值是 C 3）中的 C 值。

null

A、C1 = C2 = C3

B、C1 > C2 > C3

C、C1 < C2 < C3

D、没有一个

正确答案是：C

解析：

答案 (C)：错误项的惩罚参数 C。它也控制平滑决策边界和训练点正确分类之间的权衡。对于 C 的大值，优化会选择一个较小边距的超平面。更多内容：https://www.analyticsvidhya.com/blog/2015/10/understaing-support-vector-machine-example-code/

691题

假设有如下一组输入并输出一个实数的数据，则线性回归（Y = bX+c）的留一法交叉验证均方差为？

null

A、10/27

B、20/27

C、50/27

D、49/27

正确答案是：D

解析：

我们需要计算每个交叉验证点的残差，拟合后得到两点连线和一点用于交叉验证。

null

留一法交叉验证均方差为(2^2 +(2/3)^2 +1^2) /3 = 49/27

692题

下列哪一项关于极大似然估计（MLE）的说法是正确的？

1)MLE并不总是存在

2)MLE一直存在

3)如果MLE存在，它可能不特异

4)如果MLE存在，它一定是特异的

A、1和4

B、2和3

C、1和3

D、2和4

正确答案是：C

解析：

MLE可能不是一个转折点，即它可能不是一个似然函数的一阶导数消失的点

null

MLE可能并不特异

null

693题

假设线性回归模型完美拟合训练数据（即训练误差为零），则下列哪项是正确的？

A、测试误差一定为零

B、测试误差一定不为零

C、以上都不对

正确答案是：C

解析：

如果测试数据无干扰，则测试误差可能为零。换言之，如果测试数据是训练数据的典型代表，测试误差即为零，但这种情况并不总是出现。

694题

在线性回归问题中，我们用“R方”来衡量拟合的好坏。在线性回归模型中增加特征值并再训练同一模型。下列哪一项是正确的？

A、如果R方上升，则该变量是显著的

B、如果R方下降，则该变量不显著

C、单单R方不能反映变量重要性，不能就此得出正确结论

D、都不正确

正确答案是：C

解析：

单单R方不能表示变量显著性，因为每次加入一个特征值，R方都会上升或维持不变。但在“调整R方”的情况下这也有误（如果特征值显著的话，调整R方会上升）。

695题

下列关于回归分析中的残差表述正确的是

A、残差的平均值总为零

B、残差的平均值总小于零

C、残差的平均值总大于零

D、残差没有此类规律

正确答案是：A

解析：

回归的残差之和一定为零，故而平均值也为零

696题

下列关于异方差性哪项是正确的？

A、线性回归有变化的误差项

B、线性回归有恒定的误差项

C、线性回归有零误差项

D、以上都不对

正确答案是：A

解析：

在误差项中，非恒定方差的存在导致了异方差性。一般来说，非恒定方差的出现时因为异常值或极端杠杆值的存在。可以参考：https://www.analyticsvidhya.com/blog/2016/07/deeper-regression-analysis-assumptions-plots-solutions/

null

留一法交叉验证均方差为(2^2 +(2/3)^2 +1^2) /3 = 49/27

697题

下列哪一项说明了X，Y之间的较强关系

A、相关系数为0.9

B、Beta系数为0的空假设的p-value是0.0001

C、Beta系数为0的空假设的t统计量是30

D、都不对

正确答案是：A

解析：

变量间的相关系数为0说明了变量间的较强关系；另一方面，p-value和t统计量仅仅衡量了非零联系的证据有多强。在数据足够多的情况下，哪怕弱影响都可能是显著的。

698题

在导出线性回归的参数时，我们做出下列哪种假定？

1)因变量y和自变量x的真实关系是线性的

2)模型误差是统计独立的

3)误差通常服从一个平均值为零，标准差恒定的分布

4)自变量x是非随机的，无错的

A、1,2和3

B、1,3和4

C、1和3

D、以上都对

正确答案是：D

解析：

当导出回归参数时，我们做出以上全部4种假设，缺少任何一种，模型都会出错。

699题

为了检验连续变量x，y之间的线性关系，下列哪种图最合适？

A、散点图

B、条形图

C、直方图

D、都不对

正确答案是：A

解析：

为了检验连续变量的线性关系，散点图是最好的选择，可以看出一个变量如何关于另一个变量变化。散点图反映两个定量变量之间的关系。

700题

下列哪种方法被用于预测因变量？

1)线性回归

2)逻辑回归

A、1和2

B、1

C、2

D、都不是

正确答案是： B

解析：

逻辑回归是用于分类问题的

转载于:https://www.cnblogs.com/ciao/articles/10894581.html

最后

以上就是爱撒娇裙子最近收集整理的关于BAT 机器学习 1000 题 601-700（转）的全部内容，更多相关BAT内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：人工智能
浏览次数：110 次浏览
发布日期：2023-04-04 13:50:01
本文链接：https://www.kaopuke.com/article/k-p-k_14_ujo_6_f1_12__7__26_5.html