机器学习: 正则化一、形式与作用二、正则项为何起作用三、各类正则项性质四、参考

68 阅读 0 评论 45 点赞

我是靠谱客的博主高挑西装，这篇文章主要介绍机器学习: 正则化一、形式与作用二、正则项为何起作用三、各类正则项性质四、参考，现在分享给大家，希望可以做个参考。

文章目录

一、形式与作用
- 1、形式
- 2、作用
二、正则项为何起作用
- 1、几何直观理解
- 2、假设空间理解
- 3、贝叶斯角度理解
- 4、从Lipschitz约束角度理解
三、各类正则项性质
四、参考

一、形式与作用

1、形式

机器学习，深度学习损失函数一般记为 $frac{1}{N}sum_{i=0}^Nl(f(x_i;W),y_i)$
其中， $N$ 为样本数， $l$ 为损失函数， $f$ 为模型, $W$ 为模型参数。加入正则项的损失函数可记为:
$frac{1}{N}sum_{i=0}^Nl(f(x_i;W),y_i)) + lambda Omega(f)$
其中， $Ω (f)$ 为模型的复杂度， $λ Ω (f)$ 为正则项, 也叫惩罚项。 $λ$ 为超参数，控制惩罚力度。

2、作用

正则项的重要作用是防止模型对训练数据的过拟合。如下图：
在这里插入图片描述
其中蓝线表示的是未加正则项的模型，其对训练数据(蓝色圆圈)过拟合，遇到测试数据(绿色方块)表现非常不好，而绿线为加入正则项后的模型，表现较好。

二、正则项为何起作用

1、几何直观理解

过拟合的重要性质是拟合函数曲线导数绝对值非常大. 因为过拟合时，函数需要兼顾每一个样本点，因此需要剧烈变化。如上图中的蓝线。而常见的正则项，如一范数，二范数，他们都有减小模型参数绝对值的作用，这就使得导数绝对值变小，使得拟合函数曲线更平滑，也就能在一定程度减少过拟合。

2、假设空间理解

所有的机器学习的学习过程都归结为从假设空间 $H$ 中选择最优的模型 $f ^ hat{f}$
$min_{f in mathcal{H}}frac{1}{N}sum_{i=1}^nl(y_i, f(x_i;W))$
假设空间越大，可供选择的机会就越多，但是选到 $E_{in}$ 小， $E_{out}$ 大的模型的可能性就越大，也就是过拟合风险就越大。我们通过将模型选择的空间约束到假设空间的一个子空间，这样就可以降低过拟合风险。如何约束? 即解带约束的优化问题。用二范数举例:
$min_{f in mathcal{H}}frac{1}{N}sum_{i=1}^nl(y_i, f(x_i;W)) \ s.t. ||W||^2 le r$

其将模型的选择空间限制在了半径小于 $r$ 的超球体中。这样就减小了模型选择空间，使得过拟合风险得以降低。
在这里插入图片描述
那么如何解这个式子？根据拉格朗日乘子法，这等价于解:
$min_{f in mathcal{H}}frac{1}{N}sum_{i=1}^nl(y_i, f(x_i;W)) + gamma (||W||^2 -r) end{aligned}$
其中 $γ \geq 0$ , 很明显，求解上式等价于求解下式.
$min_{f in mathcal{H}}frac{1}{N}sum_{i=0}^Nl(y_i,f(x_i;W))+ lambda ||W||^2.$
其中 $λ$ 为超参数, 此即优化带正则项的损失函数。

因此加入正则项相当于约束了假设空间 $H$ . 从而使得选择到坏的模型的机会降低，也就起到了防止过拟合的作用。直观来说， $λ$ 越大，约束也就越强。

3、贝叶斯角度理解

(1) 噪声服从高斯分布，无先验。
从贝叶斯角度，对该类问题，我们是要建模一个概率分布，因此我们需要优化如下极大似然问题:
$max_{theta}P(Y, X| theta)$
其中 $θ$ 是希望求出的参数，真正的 $θ$ 只有上帝知道，就好像最好的模型 $f^*$ 只有上帝知道，我们所求的 $f ^ hat{f}$ 只能去逼近它一样。

对于每一个样本 ${x_i, y_i}$ ， $x_i$ 的真实标签 $Y$ 是一个随机变量，均值为: $f(x_i, theta)$ 。由于产生噪声的原因很多，根据中心极限定理，我们可以假定噪声服从高斯分布。即 $f(x_i, theta) sim N(0, sigma^2) to Y sim N(f(x_i,theta), sigma^2)$ . 因此极大似然可以写为:
$Pi_{i=1}^{N}frac{1}{sigmasqrt{2pi}}exp{-frac{1}{2sigma^2}(y_i-f(x_i,theta))^2}$
最大化该极大似然：取 $l o g$ ，再取负号，转而等价为如下极小化问题:
$min_{theta}sum_{i=1}^N(y_i-f(x_i,theta))^2$
此即最小二乘问题。因此假定噪声为高斯噪声，单一的平方和误差函数是最大似然函数的一个自然结果。

(2) 噪声服从高斯分布，参数 $θ$ 有先验。
贝叶斯认为，参数也是一个随机变量，也服从一个分布，进而加入参数分布的先验，我们极大化如下后验概率:
$max_{theta}P(Y,X|theta)f(theta) &= arg min_{theta}-logP(Y,X|theta)-logf(theta) \ &= arg min_{theta} sum_{i=1}^N(y_i-f(x_i,theta))^2-logf(theta) end{aligned}$
其中 $f (θ)$ 是参数的先验分布，如果

当 $f (θ)$ 服从（标准）正态分布的时候，上式对应了L2正则化。
当 $f (θ)$ 服从拉普拉斯分布的时候，上式对应了L1正则化。

因此，从贝叶斯角度，正则化项相当于加入了参数的先验分布。这也相当于给了参数一个限制，因此起到了防止过拟合的作用。

4、从Lipschitz约束角度理解

[3] 中从Lipschitz约束推导出了深度学习模型中L2范数的意义，直观说明了其为何能够增强模型的泛化能力。

三、各类正则项性质

这里主要总结常用的 $L 1$ 和 $L 2$ 正则项。
(1) L1正则项: 将模型空间限制在一个超方体中。目标函数测地线大概率会与超方体顶点相交。在顶点时，其中一些参数为为0，因此使得参数具有稀疏性。
(2) L2正则项: 将模型空间限制在一个超球体中, 不会产生稀疏性，但是所有的参数都会接近0。
L1在特征选择时非常有用。
在这里插入图片描述

四、参考

[1] 知乎: 如何理解机器学习中的正则化
[2] 知乎: L1范数与L2范数的区别 - 涛笙依旧的文章
[3] 苏剑林. (2018, Oct 07). 《深度学习中的Lipschitz约束：泛化与生成模型》[Blog post]. Retrieved from https://spaces.ac.cn/archives/6051