深度学习的权重衰减是什么_动手深度学习PyTorch（四）权重衰减

83 阅读 0 评论 55 点赞

我是靠谱客的博主快乐大侠，这篇文章主要介绍深度学习的权重衰减是什么_动手深度学习PyTorch（四）权重衰减，现在分享给大家，希望可以做个参考。

动手深度学习PyTorch(二)模型选择、欠拟合和过拟合中我们观察了过拟合现象，即模型的训练误差远小于它在测试集上的误差。虽然增大训练数据集可能会减轻过拟合，但是获取额外的训练数据往往代价高昂。本节介绍应对过拟合问题的常用方法：权重衰减(weight decay)。

方法

权重衰减等价于 L 2 L_2L2 范数正则化(regularization)。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小，是应对过拟合的常用手段。我们先描述L 2 L_2L2范数正则化，再解释它为何又称权重衰减。

L 2 L_2L2范数正则化在模型原损失函数基础上添加L 2 L_2L2范数惩罚项，从而得到训练所需要最小化的函数。L 2 L_2L2范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。以3.1节(线性回归)中的线性回归损失函数

ℓ ( w 1 , w 2 , b ) = 1 n ∑ i = 1 n 1 2 ( x 1 ( i ) w 1 + x 2 ( i ) w 2 + b − y ( i ) ) 2 ell(w_1, w_2, b) = frac{1}{n} sum_{i=1}^n frac{1}{2}left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}right)^2ℓ(w1,w2,b)=n1i=1∑n21(x1(i)w1+x2(i)w2+b−y(i))2

为例，其中w 1 , w 2 w_1, w_2w1,w2是权重参数，b bb是偏差参数，样本i ii的输入为x 1 ( i ) , x 2 ( i ) x_1^{(i)}, x_2^{(i)}x1(i),x2(i)，标签为y ( i ) y^{(i)}y(i)，样本数为n nn。将权重参数用向量w