概述
线性模型
导出线性回归参数前提
- 因变量y和自变量x的真实关系是线性的
- 模型误差是统计独立的
- 误差通常服从一个平均值为零,标准差恒定的分布
- 自变量x是非随机的,无错的
R方
在线性回归问题中,我们用“R方”来衡量拟合的好坏。在线性回归模型中增加特征值并再训练同一模型。
单单R方不能表示变量显著性,因为每次加入一个特征值,R方都会上升或维持不变。
但在“调整R方”的情况下这也有误(如果特征值显著的话,调整R方会上升)。单单R方不能反映变量重要性,不能就此得出正确结论
不适合线性回顾的函数
交叉熵函数一般用于分类问题,不适合用于线性回归问题。
线性分类器
线性分类器有三大类:感知器准则函数、SVM、Fisher准则,而贝叶斯分类器不是线性分类器。
线性回归模型
-
构建一个最简单的线性回归模型需要2个系数
-
在线性回归中,我们学习的两种求解代价函数最小值的方法是:梯度下降算法和正规方程。
-
线性回归一般用于连续值预测。
-
假设你在训练一个线性回归模型,数据越少越易过拟合。从偏差和方差的权衡中可以看出,假设区间小,偏差更大,方差更小。所以在小假设区间的情况下,不太可能找到欠拟合数据的假设
假设函数
假如使用逻辑回归对样本进行分类,得到训练样本的准确率和测试样本的准确率。现在,在数据中增加一个新的特征,其它特征保持不变,然后重新训练测试。
- 在模型中增加更多特征一般会增加训练样本的准确率,模型必须考虑更多的数据来适应逻辑回归,减小 bias。反之,想要减少bias值,需要增加特征。
- 但是测试样本准确率不一定增加,除非增加的特征是有效特征。
- 增加模型复杂度,虽然会减小训练样本误差,但是容易发生过拟合。
- 选择合适的多项式阶数非常重要。如果阶数过大,模型就会更加复杂,容易发生过拟合;如果阶数较小,模型就会过于简单,容易发生欠拟合。
在训练逻辑回归模型的之前需要对特征标准化
one-vs-all方法就是每次只留下一个样本做测试集,其它样本做训练集,如果有n个样本,则需要训练n次,测试n次,所以有n个模型。如果存在n个类,那么n个单独的逻辑回归必须与之相适应,其中每个类的概率由剩余类的概率之和确定。
损失函数
- 用来表现预测与实际数据的差距程度
- 损失函数有多种表现形式,均方差函数仅仅是一种损失函数,根据实际情况,选择不同的损失函数
- 衡量预测模型的好坏
在线性回归中,我们将实际数据存在偏差而导致之前的方法无法解决的问题转换成了解决最小二乘问题。
逻辑回归的损失函数一般是交叉熵,不选择均方差函数。
损失函数在不同机械学习的应用
- 逻辑回归的损失函数一般是交叉熵,不选择均方差函数。
梯度下降算法
方法:
- 随机选择一个起点
- 求斜率,根据斜率判断方向
- 挪动步长
- 在一个平面上的一条曲线,如果要寻找这个曲线下降速度最快的点,需要使用求导的方式,可以求出这个曲线在某个点的斜率,与其他位置的斜率进行比较,从而找到这个下降最快的点。
- 对于曲面,利用偏导数表示函数图形上某一点,沿某个方向的变化率。求出每个变量的偏导数可以得到梯度,求下降速度最快的方向。
如果对相同的数据进行逻辑回归,想花费更少的时间,并给出比较相似的精度,如果在训练时减少迭代次数,就能花费更少的时间获得相同的精度,但需要增加学习率。
梯度下降算法和正规方程都适用于各种类型的模型
正则化
正则化是为了防止过拟合, 进而增强泛化能力
L1和L2的区别
- L1正则化偏向于稀疏,它会自动进行特征选择,去掉一些没用的特征,也就是将这些特征对应的权重置为0.使用L1可以得到稀疏的权值
- L2主要功能是为了防止过拟合,当要求参数越小时,说明模型越简单,而模型越简单则,越趋向于平滑,从而防止过拟合。
Bias
bias表示模型预测值的均值与样本实际值的差距,它反映了模型对样本数据的拟合能力。
过拟合,欠拟合
-
bias越低,说明模型越复杂,参数越多,但是容易过拟合,伴随低偏差,高方差。
-
bias越高,说明模型越简单,参数太少,对样本数据的拟合效果不好,这就是欠拟合。当欠拟合发生时,导致训练误差太大,测试误差也会较大,因为测试集中的基本信息(分布)是与训练集相一致的。伴随着高偏差、低方差
解决过拟合和欠拟合
- 正则化是为了防止过拟合, 进而增强泛化能力。同样的还有数据增强,Dropout,early stopping。
评估方法和比较经验
分类和聚类
- 已知和未知的区别
- 分类表示的是一种确定的可能性和确定的含义,分类问题,通过对输入数据进行标注,明确知道可以将数据分为哪几类,并且明确的知道每类数据的意义是什么。
- 而聚类表示的是一种未知的可能性和未知的定义。聚类是一种典型的无监督学习,其定义是将输入数据使用聚类算法划分成几种不同的分组。真正计算前不知道会分成几组的。
- 聚类和监督学习中的分类问题很像,其实他们两者截然不同的算法
信息增益
决策树
一般用决策树进行分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点。这时,每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分类,直至达到叶结点。最后将实例分到叶结点的类中。
注意:决策树是不需要要做归一化的算法,因为他不关心变量的值,只关心变量的分布和变量之间的条件概论,所以如果X和Y存在高度非线性和复杂关系,树模型更优先于经典回归
- 决策树深度越深,在训练集上误差会越小,准确率越高。但是容易造成过拟合,而且增加模型的训练时间。
- 对决策树进行修剪,减小树的深度,能够提高模型的训练速度,有效避免过拟合
注意:在单决策树中学习率不是一个有效参数
- 在决策树中,使用熵比较不同特征的分类效果。
- 纯度高的节点,可以用更少的的信息去区分
优点:
1)不需要任何领域知识或参数假设。
2)适合高维数据。
3)简单易于理解。
4)短时间内处理大量数据,得到可行且效果较好的结果。
5)能够同时处理数据型和常规性属性。
缺点:
1)对于各类别样本数量不一致数据,信息增益偏向于那些具有更多数值的特征。
2)易于过拟合。
3)忽略属性之间的相关性。
4)不支持在线学习。
ID3算法
算法缺点:
- 对属性值多的属性过度敏感
- 值缺失问题
- 无法处理连续性属性
ID3算法构建决策树时,节点的分支可以有多个
SVM算法
SVM广泛应用于实际问题中,包括回归,聚类,手写数字识别等。
- SVM核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及Sigmoid核函数。
logistic核函数不是SVM核函数
核函数的本质是两个函数的內积,通过核函数将其隐射到高维空间,在高维空间非线性问题转化为线性问题, SVM得到平面是高维空间的线性分类平面,因此带核的SVM不能解决非线性问题
- SVM的效率依赖于核参数,核函数的选择,软间隔参数,它能够提高效率,降低误差和过拟合
训练完SVM模型后, 不是支持向量的那些样本我们可以丢掉, 也可以继续分类:
- SVM通过寻找使得训练数据尽可能分开且分类间隔最大的超平面实现结构风险最小化
- SVM通过减小惩罚参数C来避免过拟合,因为C越大,分类就越苛刻,越容易过拟合。
logit回归
-
logit回归的目标函数是对数似然函数 L(w),通过梯度下降法或拟牛顿法最大化目标函数L(w),从而估计模型参数w的值。
-
logit回归输出的是Y属于某一类的概率,也可以表示某事件发生的概率
朴素贝叶斯算法
朴素贝叶斯算法是最大化后验概率,贝叶斯公式即后验概率公式:
- P(θ) 是在没有数据支持下,θ 发生的概率:
- 先验概率P(θ|x) 是在数据X的支持下,θ 发生的概率:
- 后验概率p(x|θ) 是给定参数 θ 的概率分布
贝叶斯决策论
- 最小损失准则中需要用到先验概率
- 最小最大损失规则主要是解决在使用最小损失规则时先验概率未知或难以计算的问题的
- 最小误判概率准则就是判断p(w1|x)和p(w2|x)哪个大,x为特征向量,w1和w2为两分类,根据贝叶斯公式,需要用到先验知识。
我们在最小最大损失时候不需要用到先验概论!
我们的贝叶斯分类不是线性分类器的最佳准则。
优点:
1)所需估计的参数少,对于缺失数据不敏感。
2)有着坚实的数学基础,以及稳定的分类效率。
缺点:
1)假设属性之间相互独立,这往往并不成立。(喜欢吃番茄、鸡蛋,却不喜欢吃番茄炒蛋)。
2)需要知道先验概率。
3)分类决策存在错误率。
极大似然估计概念
MLE的存在和解唯一不确定性
- MLE 可能并不存在;
- 如果 MLE 存在,那么它的解可能不是唯一的
集成学习概念
鲁棒性
计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。
- SVM的软间隔分类器对噪声是有鲁棒性的
- 训练集变大会提高模型的鲁棒性
弱学习者
- 他们通常带有高偏差,所以其并不能解决复杂学习问题,它们是特殊的存在,是问题的特定部分。
- 他们通常不会过拟合,这也就意味着弱学习者通常拥有低方差和高偏差。
集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。一般情况下,集成学习中的多个学习器都是同质的"弱学习器",单个模型之间有低相关性
Boosting原理
随机森林和梯度提升树(GBDT)的基本概率和区别。
- Random Forest 是基于 Bagging 的, Bagging不是根据分类器正确率确定权重,Bagging算法在两个随机过程避免了过拟合现象的出现。树和树之间是没有依赖的
低偏差和高方差用Bagging
-
boostrap是它的过程是对样本(而不是特征)进行有放回的抽样, 抽样次数等同于样本总数. 这个随机抽样过程决定了最终抽样出来的样本, 去除重复之后, 占据原有样本的1/e比例.
-
而 Gradient Boosting Trees 是基于 Boosting 的, boosting是根据分类器正确率确定权重。GradientBoosting Trees中的单个树之间是有依赖关系。
-
这两个模型都使用随机特征子集, 来生成许多单个的树
异常值处理
- 给出少于所需数据的数据点,我们采取限制和增加变量的方法去清除异常值
- 在数据点相对较少的时候,不推荐去除异常值,在一些情况下,对变量进行剔除或增加更合适。
缺失值处理
由于数据分布在中位数附近,让我们先假设这是一个正态分布。 我们知道,在一个正态分布中,约有68%的数据位于跟平均数(或众数、中位数)1个标准差范围内的,那样剩下的约32%的数据是不受影响的。 因此,约有32%的数据将不受到缺失值的影响。
数据清理中,处理缺失值的方法有两种:删除法(删除观察样本、删除变量、改变权重)、查补法(均值插补、回归插补、抽样填补等)
其中成对删除不是处理缺失值的方法
组合策略
若直接用初级学习器的训练集来产生次级训练集,则过拟合风险会比较大;一般会通过交叉验证等方式,用训练初级学习器未使用的样本来产生次级学习器的训练样本。
Sigmoid 函数
把输出值限定在 [0,1] 之间。
核函数
当遇到一个不能正确划分两类样本的超平面,这时就要考虑将其升到更高的维度,而核函数的功能就是将原始样本升到更高维度,目的就是得到更优的解。
最后
以上就是甜美向日葵为你收集整理的机器学习题库线性模型假设函数损失函数梯度下降算法正则化Bias评估方法和比较经验信息增益ID3算法SVM算法logit回归朴素贝叶斯算法贝叶斯决策论极大似然估计概念集成学习概念Boosting原理异常值处理缺失值处理组合策略Sigmoid 函数核函数的全部内容,希望文章能够帮你解决机器学习题库线性模型假设函数损失函数梯度下降算法正则化Bias评估方法和比较经验信息增益ID3算法SVM算法logit回归朴素贝叶斯算法贝叶斯决策论极大似然估计概念集成学习概念Boosting原理异常值处理缺失值处理组合策略Sigmoid 函数核函数所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复