L2正则化:
L
=
E
e
+
λ
∑
w
i
2
L=E_e + lambdasum w_i^2
L=Ee+λ∑wi2
E
e
E_e
Ee:是训练数据个标签之间的误差
w
i
w_i
wi:表示权重值
在反向传播计算梯度时,对每个权重点来说,就是在原本计算的 E e E_e Ee梯度上,再加上 2 ∗ λ ∗ w i 2*lambda*w_i 2∗λ∗wi, 2和 λ lambda λ可一起看做常数项系数.
Pytorch里实现的权重衰减:
再看看Pytorch里实现的权重衰减方式:
从源代码来看.pytorch中对self.weight和self.bias参数都进行了L2正则化,weight_decay是衰减系数.

最后
以上就是糊涂蜻蜓最近收集整理的关于Pytorch优化器的权重衰减(weight_decay)的全部内容,更多相关Pytorch优化器内容请搜索靠谱客的其他文章。
发表评论 取消回复