机器学习题目汇总三

318 阅读 0 评论 210 点赞

我是靠谱客的博主贪玩烧鹅，这篇文章主要介绍机器学习题目汇总三，现在分享给大家，希望可以做个参考。

1、以下哪些方法不可以直接来对文本分类？
正确答案: A

A、Kmeans
B、决策树
C、支持向量机
D、KNN

分类不同于聚类。
对于A，Kmeans是聚类方法，典型的无监督学习方法。分类是监督学习方法，BCD都是常见的分类方法。

2、下面有关序列模式挖掘算法的描述，错误的是？

正确答案: C

A、AprioriAll算法和GSP算法都属于Apriori类算法，都要产生大量的候选序列
B、FreeSpan算法和PrefixSpan算法不生成大量的候选序列以及不需要反复扫描原数据库
C、在时空的执行效率上，FreeSpan比PrefixSpan更优
D、和AprioriAll相比，GSP的执行效率比较高

Apriori类算法包括： AprioriAll和 GSP等。

在序列模式挖掘中，FreeSpan和PrefixSpan是两个常用的算法。其中，PrefixSpan是从FreeSpan中推导演化而来的。这两个算法都比传统的Apriori-like的序列模式挖掘算法（GSP）都有效。而PrefixSpan又比FreeSpan又更有效。这是因为PrefixSpan的收缩速度比FreeSpan还要更快些。

3、深度学习是当前很热门的机器学习算法。在深度学习中，涉及到大量矩阵相乘，现在需要计算三个稠密矩阵A,B,C的乘积ABC，假设三个矩阵的尺寸分别为m*n,n*p,p*q,且m

(AB)C = m*n*p + m*p*q,
A(BC)=n*p*q + m*n*q.
m*n*p<m*n*q,m*p*q< n*p*q, 所以 (AB)C 最小

4、以下关于PMF(概率质量函数),PDF(概率密度函数),CDF(累积分布函数)描述错误的是()。
正确答案: A

A、PDF描述的是连续型随机变量在特定取值区间的概率
B、CDF是PDF在特定区间上的积分
C、PMF描述的是离散型随机变量在特定取值点的概率
D、有一个分布的CDF函数H(x),则H(a)等于P(X<=a)

概率质量函数 (probability mass function，PMF)是离散随机变量在各特定取值上的概率。
概率密度函数（p robability density function，PDF ）是对连续随机变量定义的，本身不是概率，只有对连续随机变量的取值进行积分后才是概率。
累积分布函数（cumulative distribution function，CDF）能完整描述一个实数随机变量X的概率分布，是概率密度函数的积分。对於所有实数x ，与pdf相对。

5、下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测
正确答案: D

A、AR模型
B、MA模型
C、ARMA模型
D、GARCH模型

AR模型是一种线性预测，即已知N个数据，可由模型推出第N点前面或后面的数据（设推出P点），所以其本质类似于插值。
MA模型(moving average model)滑动平均模型，模型参量法谱分析方法之一。
ARMA模型(auto regressive moving average model)自回归滑动平均模型，模型参量法高分辨率谱分析方法之一。这种方法是研究平稳随机过程有理谱的典型方法。它比AR模型法与MA模型法有较精确的谱估计及较优良的谱分辨率性能，但其参数估算比较繁琐。
GARCH模型称为广义ARCH模型，是ARCH模型的拓展， GARCH对误差的方差进行了进一步的建模，特别适用于波动性的分析和预测。

6、已知一组数据的协方差矩阵P,下面关于主分量说法错误的是()
正确答案: C

A、主分量分析的最佳准则是对一组数据进行按一组正交基分解, 在只取相同数量分量的条件下,以均方误差计算截尾误差最小
B、在经主分量分解后,协方差矩阵成为对角矩阵
C、主分量分析就是K-L变换
D、主分量是通过求协方差矩阵的特征值得到

K-L变换与PCA变换是不同的概念，PCA的变换矩阵是协方差矩阵，K-L变换的变换矩阵可以有很多种（二阶矩阵、协方差矩阵、总类内离散度矩阵等等）。当K-L变换矩阵为协方差矩阵时，等同于PCA。