day1 AI面试刷题1、简述机器学习项目的一般流程2、哪些机器学习算法需要做特征归一化，哪些不需要？为什么？3、One-hot的作用是什么？为什么不直接使用数字作为表示？4、什么是数据不平衡？如何解决？5、请比较欧氏距离与曼哈顿距离

78 阅读 0 评论 52 点赞

我是靠谱客的博主开心摩托，最近开发中收集的这篇文章主要介绍day1 AI面试刷题1、简述机器学习项目的一般流程2、哪些机器学习算法需要做特征归一化，哪些不需要？为什么？3、One-hot的作用是什么？为什么不直接使用数字作为表示？4、什么是数据不平衡？如何解决？5、请比较欧氏距离与曼哈顿距离，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

day1 AI面试刷题

1、简述机器学习项目的一般流程
2、哪些机器学习算法需要做特征归一化，哪些不需要？为什么？
3、One-hot的作用是什么？为什么不直接使用数字作为表示？
4、什么是数据不平衡？如何解决？
5、请比较欧氏距离与曼哈顿距离

1、简述机器学习项目的一般流程

机器学习项目的流程

数据获取(爬虫，第三方，自产)
数据分析与清洗(观察样本数据特征，数据类型；洗去样本异常值，去除或填补缺失值)
特征工程(筛选重要特征，或融合产生新的、更重要的特征)
建模(训练模型，选择合适的模型，注意分类，聚类还是回归模型)
得出结果并进行打分(使用模型产出结果，并打分，评估模型好坏，若模型问题，则回到4，若特征问题，回到3)
分析报告，可视化，得出结论

参考答案：
机器学习一般包括解决方案的制定，数据的准备与预处理，数据集的划分，模型的开发，和模型部署五个阶段。

解决方案的制定： 就是要分析战略目标，挖掘要通过机器学习技术解决的业务问题，然后制定解决方案（匹配问题与可能的解决方案）来解决这些问题。

数据的准备与预处理： 数据是任何机器学习项目的基石，数据的好坏直接决定了机器学习项目最终能否达到预期。在这一阶段，主要完成的工作有，
数据的收集，
数据的探索性分析（例如可视化分析），
数据的标注，
数据的选择（比如剔除不符合业务目标的数据），
数据的预处理（包括：数据格式化，数据清洗，数据匿名化，数据采样等）
数据转化/特征工程（例如：数值缩放，特征挖掘，特征组合，特征聚类等）

数据集的划分： 在这一阶段，要将准备好的数据划分为训练集，验证集和测试集，分别用于模型的训练，调优和性能测试。

模型的开发： 模型的开发主要包括：
模型训练（开发/选择/实现机器学习算法，并用数据和算法来训练模型），
模型的验证与测试，
模型性能提升（例如采用更好的算法来训练模型，或者采用集成框架）

模型的部署： 就是要将上一阶段开发好的模型部署到产品线上。此阶段需要考虑和解决的问题主要有：
模型预测的负载（批量预测还是实时预测？），
模型部署终端的环境（比如网络服务器端，还是移动端），
如何监控模型的线上表现，
如何进行模型的持续训练和改进等

2、哪些机器学习算法需要做特征归一化，哪些不需要？为什么？

归一化是对样本的数字进行处理，避免不同特征值差距过大而造成值权重较高，归一化使不同特征值分布更紧密，即将样本不同特征的不同权重处理为相同的权重，此外加快梯度下降求解的速率。那么，对数值敏感(如计算欧氏距离)的机器学习算法则需要该特征归一化，比如：逻辑归回，线性回归，SVM，KNN，神经网络等。而概率模型则不用，如树形结构的算法：如决策树、随机森林等，他们只在乎特征占整体样本的分布以及条件概率，与具体数值无关。

参考答案：
特征归一化是将所有特征都统一到一个大致相同的数值区间内，通常为 [0, 1]。常用的特征归一化方法有：

Min-Max Scaling
对原始数据进行线性变换，使结果映射到 [0, 1] 的范围，实现对数据的等比例缩放。
$X_{norm}=frac{X-X_{min}}{X_{max}-X_{min}} end{aligned}$
其中 $X_{min}， X_{max}$ 分别为数据的最小值和最大值
Z-Score Normalization
将原始数据映射到均值为0，标准差为1的分布上。
$X_{norm}=frac{X-mu}{sigma} end{aligned}$
其中 $μ$ 为原始特征的均值，而 $σ$ 为原始特征的标准差。

在采用基于梯度更新的学习方法（包括线性回归，逻辑归回，支持向量机，神经网络等）对模型求解的过程中，未归一化的数值特征在学习时，梯度下降较为抖动，模型难以收敛（通常需要较长时间模型才能收敛）；而归一化之后的数值特征则可以使梯度下降较为稳定，进而减少梯度计算的次数，也更容易收敛。下图中，左边为特征未归一化时，模型的收敛过程；而右边是经过特征归一化之后模型的收敛过程。其中 $J (θ)$ 表示损失函数，图中的圈代表损失函数的等值线； $theta_1, theta_2$ 分别是模型的两个参数， $x_1, x_2$ 是这两个模型参数对应的特征值。