weight decay(权重衰减)【即“正则化”】
先附上两张李宏毅的ppt(对L2正则化的推导)看了这两张图:所以weight decay就是正则化。正则化怎么来的?源头就在于LOSS的改变!!!其中参数λ是控制L2正则化强度的超参数,λ 设置得越大,对大的权重施加的惩罚就越重。(1)正则化分L1正则化和L2正则化和L∞正则化L1正则化会使一些特征的权重变为0,比如你有100个特征,它可能会让40个特征的权重为0,换句话说,抛弃了一些无用的特征。这听上去就很有用,100个特征估计有60个都是无用的特征或噪音,这时候L1正则化就可