概述
文章目录
- 一、形式与作用
- 1、形式
- 2、作用
- 二、正则项为何起作用
- 1、几何直观理解
- 2、假设空间理解
- 3、贝叶斯角度理解
- 4、从Lipschitz约束角度理解
- 三、各类正则项性质
- 四、参考
一、形式与作用
1、形式
机器学习,深度学习损失函数一般记为
L
=
1
N
∑
i
=
0
N
l
(
f
(
x
i
;
W
)
,
y
i
)
L = frac{1}{N}sum_{i=0}^Nl(f(x_i;W),y_i)
L=N1i=0∑Nl(f(xi;W),yi)
其中,
N
N
N为样本数,
l
l
l为损失函数,
f
f
f为模型,
W
W
W为模型参数。加入正则项的损失函数可记为:
L
=
1
N
∑
i
=
0
N
l
(
f
(
x
i
;
W
)
,
y
i
)
)
+
λ
Ω
(
f
)
L = frac{1}{N}sum_{i=0}^Nl(f(x_i;W),y_i)) + lambda Omega(f)
L=N1i=0∑Nl(f(xi;W),yi))+λΩ(f)
其中,
Ω
(
f
)
Omega(f)
Ω(f)为模型的复杂度,
λ
Ω
(
f
)
lambda Omega(f)
λΩ(f)为正则项, 也叫惩罚项。
λ
lambda
λ为超参数,控制惩罚力度。
2、作用
正则项的重要作用是防止模型对训练数据的过拟合。如下图:
其中蓝线表示的是未加正则项的模型,其对训练数据(蓝色圆圈)过拟合,遇到测试数据(绿色方块)表现非常不好,而绿线为加入正则项后的模型,表现较好。
二、正则项为何起作用
1、几何直观理解
过拟合的重要性质是拟合函数曲线导数绝对值非常大. 因为过拟合时,函数需要兼顾每一个样本点,因此需要剧烈变化。如上图中的蓝线。而常见的正则项,如一范数,二范数,他们都有减小模型参数绝对值的作用,这就使得导数绝对值变小,使得拟合函数曲线更平滑,也就能在一定程度减少过拟合。
2、假设空间理解
所有的机器学习的学习过程都归结为从假设空间
H
mathcal{H}
H中选择最优的模型
f
^
hat{f}
f^
f
^
=
a
r
g
min
f
∈
H
1
N
∑
i
=
1
n
l
(
y
i
,
f
(
x
i
;
W
)
)
hat{f}=arg min_{f in mathcal{H}}frac{1}{N}sum_{i=1}^nl(y_i, f(x_i;W))
f^=arg f∈HminN1i=1∑nl(yi,f(xi;W))
假设空间越大,可供选择的机会就越多,但是选到
E
i
n
E_{in}
Ein小,
E
o
u
t
E_{out}
Eout大的模型的可能性就越大,也就是过拟合风险就越大。我们通过将模型选择的空间约束到假设空间的一个子空间,这样就可以降低过拟合风险。如何约束? 即解带约束的优化问题。用二范数举例:
f
^
=
a
r
g
min
f
∈
H
1
N
∑
i
=
1
n
l
(
y
i
,
f
(
x
i
;
W
)
)
s
.
t
.
∣
∣
W
∣
∣
2
≤
r
hat{f}=arg min_{f in mathcal{H}}frac{1}{N}sum_{i=1}^nl(y_i, f(x_i;W)) \ s.t. ||W||^2 le r
f^=arg f∈HminN1i=1∑nl(yi,f(xi;W))s.t.∣∣W∣∣2≤r
其将模型的选择空间限制在了半径小于
r
r
r的超球体中。这样就减小了模型选择空间,使得过拟合风险得以降低。
那么如何解这个式子?根据拉格朗日乘子法,这等价于解:
f
^
=
a
r
g
min
f
∈
H
1
N
∑
i
=
1
n
l
(
y
i
,
f
(
x
i
;
W
)
)
+
γ
(
∣
∣
W
∣
∣
2
−
r
)
begin{aligned} hat{f}&=arg min_{f in mathcal{H}}frac{1}{N}sum_{i=1}^nl(y_i, f(x_i;W)) + gamma (||W||^2 -r) end{aligned}
f^=arg f∈HminN1i=1∑nl(yi,f(xi;W))+γ(∣∣W∣∣2−r)
其中
γ
≥
0
gamma ge 0
γ≥0, 很明显,求解上式等价于求解下式.
f
^
=
a
r
g
min
f
∈
H
1
N
∑
i
=
0
N
l
(
y
i
,
f
(
x
i
;
W
)
)
+
λ
∣
∣
W
∣
∣
2
.
hat{f} = arg min_{f in mathcal{H}}frac{1}{N}sum_{i=0}^Nl(y_i,f(x_i;W))+ lambda ||W||^2.
f^=arg f∈HminN1i=0∑Nl(yi,f(xi;W))+λ∣∣W∣∣2.
其中
λ
lambda
λ为超参数, 此即优化带正则项的损失函数。
因此加入正则项相当于约束了假设空间 H mathcal{H} H. 从而使得选择到坏的模型的机会降低,也就起到了防止过拟合的作用。直观来说, λ lambda λ越大,约束也就越强。
3、贝叶斯角度理解
(1) 噪声服从高斯分布,无先验。
从贝叶斯角度,对该类问题,我们是要建模一个概率分布,因此我们需要优化如下极大似然问题:
a
r
g
max
θ
P
(
Y
,
X
∣
θ
)
arg max_{theta}P(Y, X| theta)
arg θmaxP(Y,X∣θ)
其中
θ
theta
θ是希望求出的参数,真正的
θ
theta
θ只有上帝知道,就好像最好的模型
f
∗
f^*
f∗只有上帝知道,我们所求的
f
^
hat{f}
f^只能去逼近它一样。
对于每一个样本
{
x
i
,
y
i
}
{x_i, y_i}
{xi,yi},
x
i
x_i
xi的真实标签
Y
Y
Y是一个随机变量,均值为:
f
(
x
i
,
θ
)
f(x_i, theta)
f(xi,θ)。由于产生噪声的原因很多,根据中心极限定理,我们可以假定噪声服从高斯分布。即
Y
−
f
(
x
i
,
θ
)
∼
N
(
0
,
σ
2
)
→
Y
∼
N
(
f
(
x
i
,
θ
)
,
σ
2
)
Y - f(x_i, theta) sim N(0, sigma^2) to Y sim N(f(x_i,theta), sigma^2)
Y−f(xi,θ)∼N(0,σ2)→Y∼N(f(xi,θ),σ2). 因此极大似然可以写为:
P
(
Y
,
X
∣
θ
)
=
Π
i
=
1
N
1
σ
2
π
e
x
p
{
−
1
2
σ
2
(
y
i
−
f
(
x
i
,
θ
)
)
2
}
P(Y,X|theta) = Pi_{i=1}^{N}frac{1}{sigmasqrt{2pi}}exp{-frac{1}{2sigma^2}(y_i-f(x_i,theta))^2}
P(Y,X∣θ)=Πi=1Nσ2π1exp{−2σ21(yi−f(xi,θ))2}
最大化该极大似然: 取
l
o
g
log
log,再取负号,转而等价为如下极小化问题:
a
r
g
min
θ
∑
i
=
1
N
(
y
i
−
f
(
x
i
,
θ
)
)
2
arg min_{theta}sum_{i=1}^N(y_i-f(x_i,theta))^2
arg θmini=1∑N(yi−f(xi,θ))2
此即最小二乘问题。因此假定噪声为高斯噪声,单一的平方和误差函数是最大似然函数的一个自然结果
。
(2) 噪声服从高斯分布,参数
θ
theta
θ有先验。
贝叶斯认为,参数也是一个随机变量,也服从一个分布,进而加入参数分布的先验,我们极大化如下后验概率:
a
r
g
max
θ
P
(
Y
,
X
∣
θ
)
f
(
θ
)
=
a
r
g
min
θ
−
l
o
g
P
(
Y
,
X
∣
θ
)
−
l
o
g
f
(
θ
)
=
a
r
g
min
θ
∑
i
=
1
N
(
y
i
−
f
(
x
i
,
θ
)
)
2
−
l
o
g
f
(
θ
)
begin{aligned} arg max_{theta}P(Y,X|theta)f(theta) &= arg min_{theta}-logP(Y,X|theta)-logf(theta) \ &= arg min_{theta} sum_{i=1}^N(y_i-f(x_i,theta))^2-logf(theta) end{aligned}
arg θmaxP(Y,X∣θ)f(θ)=argθmin−logP(Y,X∣θ)−logf(θ)=argθmini=1∑N(yi−f(xi,θ))2−logf(θ)
其中
f
(
θ
)
f(theta)
f(θ)是参数的先验分布,如果
- 当 f ( θ ) f(theta) f(θ)服从(标准)正态分布的时候,上式对应了L2正则化。
- 当 f ( θ ) f(theta) f(θ)服从拉普拉斯分布的时候,上式对应了L1正则化。
因此,从贝叶斯角度,正则化项相当于加入了参数的先验分布。这也相当于给了参数一个限制,因此起到了防止过拟合的作用。
4、从Lipschitz约束角度理解
[3] 中从Lipschitz约束推导出了深度学习模型中L2范数的意义,直观说明了其为何能够增强模型的泛化能力。
三、各类正则项性质
这里主要总结常用的
L
1
L1
L1和
L
2
L2
L2正则项。
(1) L1正则项: 将模型空间限制在一个超方体中。目标函数测地线大概率会与超方体顶点相交。在顶点时,其中一些参数为为0,因此使得参数具有稀疏性。
(2) L2正则项: 将模型空间限制在一个超球体中, 不会产生稀疏性,但是所有的参数都会接近0。
L1在特征选择时非常有用。
四、参考
- [1] 知乎: 如何理解机器学习中的正则化
- [2] 知乎: L1范数与L2范数的区别 - 涛笙依旧的文章
- [3] 苏剑林. (2018, Oct 07). 《深度学习中的Lipschitz约束:泛化与生成模型 》[Blog post]. Retrieved from https://spaces.ac.cn/archives/6051
最后
以上就是高挑西装为你收集整理的机器学习: 正则化一、形式与作用二、正则项为何起作用三、各类正则项性质四、参考的全部内容,希望文章能够帮你解决机器学习: 正则化一、形式与作用二、正则项为何起作用三、各类正则项性质四、参考所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复