pytoch 设置了requires_grad=True，但是计算梯度(grad)为none

63 阅读 0 评论 42 点赞

我是靠谱客的博主香蕉大叔，最近开发中收集的这篇文章主要介绍pytoch 设置了requires_grad=True，但是计算梯度(grad)为none，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

来源：AINLPer微信公众号（点击了解一下吧）
编辑: ShuYini
校稿: ShuYini
时间: 2019-8-16

代码示例

x_in=torch.tensor([[0, 1, 2], [3, 4, 5], [6, 7, 8]]).view((1,1,3,3)).type(torch.FloatTensor)
y_out=torch.tensor([[19, 25],[37, 43]]).view(1,1,2,2).type(torch.FloatTensor)
c_core=torch.randn(2,2).view((1,1,2,2)).type(torch.FloatTensor)
c_core=c_core.requires_grad_()    
LR=0.01
# 定义一个损失函数
loss_fun=nn.MSELoss()
for i in range(10):
    y_pre=nn.functional.conv2d(x_in,c_core)
    loss=loss_fun(y_pre,y_out)
    print(c_core.grad)
    loss.backward()
    c_core=c_core-c_core.grad*LR
    print('the loss is:',loss)
print('c_core: ',c_core)

遇到的具体问题：

针对这个问题，在pytoch中直接报出来的错误是：

TypeError: unsupported operand type(s) for *: 'NoneType' and 'float'

针对这个报出来的问题，定位到当计算到“”c_core=c_core-c_core.grad*LR“”这句话时报错了，然后根据上面的输出才判断出来，原来c_core的grad为None。

##解决思路
后来经过查询才发现，当计算梯度的时候，只有叶子节点才会保留梯度，所有中间节点的grad在计算完backward()的时候为了节约内存都会被清除掉。（叶子节点是自己最初定义的变量）。此时查看我定义的c_core，确实是我最初定义的变量啊。但是有一些细节被忽略了，就是下面这句话：

c_core=c_core-c_core.grad*LR

其实上面这句话，已经对c_core做了改变，是经过计算得到的c_core，修改之后已经不是我们最初定义的变量了，而是成为了中间节点。为此怎么办呢？要保留中间节点其实很简单。就是在调用backward之前，首先调用c_core.retain_grad()。
##最终的代码修改为：

x_in=torch.tensor([[0, 1, 2], [3, 4, 5], [6, 7, 8]]).view((1,1,3,3)).type(torch.FloatTensor)
y_out=torch.tensor([[19, 25],[37, 43]]).view(1,1,2,2).type(torch.FloatTensor)
c_core=torch.randn(2,2).view((1,1,2,2)).type(torch.FloatTensor)
c_core=c_core.requires_grad_()    
LR=0.01
# 定义一个损失函数
loss_fun=nn.MSELoss()
for i in range(10):
    y_pre=nn.functional.conv2d(x_in,c_core)
    loss=loss_fun(y_pre,y_out)
    c_core.retain_grad()
    loss.backward()
    c_core=c_core-c_core.grad*LR
    print('the loss is:',loss)
print('c_core: ',c_core)