我是靠谱客的博主 壮观电灯胆,最近开发中收集的这篇文章主要介绍PyTorch实现L1,L2正则化以及DropoutPyTorch实现L1,L2正则化以及Dropout,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

PyTorch实现L1,L2正则化以及Dropout

模型训练中经常出现的两类典型问题:

  • 一类是模型无法得到较低的训练误差,我们将这一现象称作欠拟合(underfitting);
  • 另一类是模型的训练误差远小于它在测试数据集上的误差,我们称该现象为过拟合(overfitting)。

在实践中,我们要尽可能同时应对欠拟合和过拟合。

过拟合现象,即模型的训练误差远小于它在测试集上的误差。虽然增大训练数据集可能会减轻过拟合,但是获取额外的训练数据往往代价高昂。

为此我们可以使用两种方法权重衰减(weight decay)、丢弃法(dropout)。

权重衰减(weight decay)

可以使用L1,L2正则化

正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小,是应对过拟合的常用手段。

L 1 L_1 L1范数惩罚项指的是模型权重参数每个元素的绝对值和与一个正的常数的乘积

L 2 L_2 L2范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。
举线性回归损失函数
ℓ ( w 1 , w 2 , b ) = 1 n ∑ i = 1 n 1 2 ( x 1 ( i ) w 1 + x 2 ( i ) w 2 + b − y ( i ) ) 2 ell(w_1, w_2, b) = frac{1}{n} sum_{i=1}^n frac{1}{2}left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}right)^2 (w1,w2,b)=n1i=1n21(x1(i)w1+x2(i)w2+by(i))2
为例,其中 w 1 , w 2 w_1, w_2 w1,w2是权重参数, b b b是偏差参数,样本 i i i的输入为 x 1 ( i ) , x 2 ( i ) x_1^{(i)}, x_2^{(i)} x1(i),x2(i),标签为 y ( i ) y^{(i)} y(i),样本数为 n n n。将权重参数用向量 w = [ w 1 , w 2 ] boldsymbol{w} = [w_1, w_2] w=[w1,w2]表示,

带有 L 1 L_1 L1范数惩罚项的新损失函数为

ℓ ( w 1 , w 2 , b ) + λ n ∣ w ∣ , ell(w_1, w_2, b) + frac{lambda}{n} |boldsymbol{w}|, (w1,w2,b)+nλw,

带有 L 2 L_2 L2范数惩罚项的新损失函数为

ℓ ( w 1 , w 2 , b ) + λ 2 n ∥ w ∥ 2 , ell(w_1, w_2, b) + frac{lambda}{2n} |boldsymbol{w}|^2, (w1,w2,b)+2nλw2,

其中超参数 λ > 0 lambda > 0 λ>0。当权重参数均为0时,惩罚项最小。当 λ lambda λ较大时,惩罚项在损失函数中的比重较大,这通常会使学到的权重参数的元素较接近0。当 λ lambda λ设为0时,惩罚项完全不起作用。
初始化模型参数

首先,定义随机初始化模型参数的函数。该函数为每个参数都附上梯度。

def init_params():
    w = torch.randn((num_inputs, 1), requires_grad=True)
    b = torch.zeros(1, requires_grad=True)
    return [w, b]

定义 L 1 L_1 L1范数惩罚项

下面定义 L 1 L_1 L1范数惩罚项。这里只惩罚模型的权重参数。

def l1_penalty(w):
    return (torch.abs(w)).sum()

定义 L 2 L_2 L2范数惩罚项

def l2_penalty(w):
    return (w**2).sum() / 2

定义训练和测试

下面定义如何在训练数据集和测试数据集上分别训练和测试模型。这里在计算最终的损失函数时添加了 L 2 L_2 L2范数惩罚项。

batch_size, num_epochs, lr = 1, 100, 0.003
net, loss = d2l.linreg, d2l.squared_loss

dataset = torch.utils.data.TensorDataset(train_features, train_labels)
train_iter = torch.utils.data.DataLoader(dataset, batch_size, shuffle=True)

def fit_and_plot(lambd):
    w, b = init_params()
    train_ls, test_ls = [], []
    for _ in range(num_epochs):
        for X, y in train_iter:
            # # 添加了L1范数惩罚项
            # l = loss(net(X, w, b), y) + lambd * l1_penalty(w)
            # 添加了L2范数惩罚项
            l = loss(net(X, w, b), y) + lambd * l2_penalty(w)
            l = l.sum()
            
            if w.grad is not None:
                w.grad.data.zero_()
                b.grad.data.zero_()
            l.backward()
            d2l.sgd([w, b], lr, batch_size)
        train_ls.append(loss(net(train_features, w, b), train_labels).mean().item())
        test_ls.append(loss(net(test_features, w, b), test_labels).mean().item())
    d2l.semilogy(range(1, num_epochs + 1), train_ls, 'epochs', 'loss',
                 range(1, num_epochs + 1), test_ls, ['train', 'test'])
    print('L2 norm of w:', w.norm().item())
       
# 观察过拟合
fit_and_plot(lambd=0)

# 使用权重衰减
fit_and_plot(lambd=3)
  • 权重衰减可以通过优化器中的weight_decay超参数来指定。

丢弃法 (Dropout)

丢弃法简单理解为以一定概率丢弃一些神经元。

设随机变量 ξ i xi_i ξi为0和1的概率分别为 p p p 1 − p 1-p 1p。使用丢弃法时我们计算新的隐藏单元 h i ′ h_i' hi
h i ′ = ξ i 1 − p h i h_i' = frac{xi_i}{1-p} h_i hi=1pξihi
由于 E ( ξ i ) = 1 − p E(xi_i) = 1-p E(ξi)=1p,因此
E ( h i ′ ) = E ( ξ i ) 1 − p h i = h i E(h_i') = frac{E(xi_i)}{1-p}h_i = h_i E(hi)=1pE(ξi)hi=hi
由此可得丢弃法不改变其输入的期望值。下面的dropout函数将以drop_prob的概率丢弃X中的元素。

%matplotlib inline
import torch
import torch.nn as nn
import numpy as np

def dropout(X, drop_prob):
    X = X.float()
    keep_prob = 1 - drop_prob
    # 这种情况下把全部元素都丢弃
    if keep_prob == 0:
        return torch.zeros_like(X)
    mask = (torch.randn(X.shape) < keep_prob).float()
    
    return mask * X / keep_prob

我们运行几个例子来测试一下dropout函数。其中丢弃概率分别为0、0.5和1。

X = torch.arange(16).view(2, 8)
dropout(X, 0)
dropout(X, 0.5)
dropout(X, 1.0)

简洁实现

在PyTorch中,我们只需要在全连接层后添加Dropout层并指定丢弃概率。在训练模型时,Dropout层将以指定的丢弃概率随机丢弃上一层的输出元素;在测试模型时(即model.eval()后),Dropout层并不发挥作用。

net = nn.Sequential(
        d2l.FlattenLayer(),
        nn.Linear(num_inputs, num_hiddens1),
        nn.ReLU(),
        nn.Dropout(drop_prob1),
        nn.Linear(num_hiddens1, num_hiddens2), 
        nn.ReLU(),
        nn.Dropout(drop_prob2),
        nn.Linear(num_hiddens2, 10)
        )

for param in net.parameters():
    nn.init.normal_(param, mean=0, std=0.01)

下面训练并测试模型。

optimizer = torch.optim.SGD(net.parameters(), lr=0.5)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, None, None, optimizer)

最后

以上就是壮观电灯胆为你收集整理的PyTorch实现L1,L2正则化以及DropoutPyTorch实现L1,L2正则化以及Dropout的全部内容,希望文章能够帮你解决PyTorch实现L1,L2正则化以及DropoutPyTorch实现L1,L2正则化以及Dropout所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(64)

评论列表共有 0 条评论

立即
投稿
返回
顶部