关于weight decay
weight decay的作用主要是令神经网络中的权重变小(趋于0),以防止过拟合如y=∑iwixiy=\sum_{i}{w_ix_i}y=∑iwixi,则因噪声的存在,可能会令其中某几个www偏大,导致无法正确拟合正常输入weight decay的公式为:C=C0+λ2n∑iwi2C=C_0+\frac{\lambda}{2n}\sum_i{w_i^2}C=C0+2nλ∑iwi...