关于weight decay

213 阅读 0 评论 141 点赞

我是靠谱客的博主长情画笔，这篇文章主要介绍关于weight decay，现在分享给大家，希望可以做个参考。

weight decay的作用主要是令神经网络中的权重变小（趋于0），以防止过拟合
如 $y=sum_{i}{w_ix_i}$ ，则因噪声的存在，可能会令其中某几个 $w$ 偏大，导致无法正确拟合正常输入
weight decay的公式为：

$C=C_0+frac{lambda}{2n}sum_i{w_i^2}$

$frac{partial{C}}{partial{w_k}}=frac{partial{C_0}}{partial{w_k}}+frac{lambda w_k}{n}$

其中 $C_0$ 为原误差， $λ$ 为weight decay系数，也可以看做是惩罚值, $1 2 frac{1}{2}$ 则用于求导时的简化

原始梯度下降 $w_{new}=w_{old}-etaDelta ,Delta=frac{partial{C_0}}{partial{w_k}}$

使用了weight decay之后， $Δ$ 中多了一项 $w_k}{n}$ ，即对梯度下降时较大的权重，会赋予较大的惩罚值，使新的w趋于0

而在选取decay值上，目前尚没有比较普适的公式
How could I choose the value of weight decay for neural network regularization 中提到用平时调参时常用的两种策略：grid search 和 random search
其实都是类似穷举，首先需要有个验证集（不同于训练集），分别对验证集采取不同decay值(如0.5, 0.1, 0.01等等)进行测试，选取其中效果较好的decay，即作为训练集的decay