我是靠谱客的博主 香蕉大叔,最近开发中收集的这篇文章主要介绍pytoch 设置了requires_grad=True,但是计算梯度(grad)为none,觉得挺不错的,现在分享给大家,希望可以做个参考。
概述
来源:AINLPer微信公众号(点击了解一下吧)
编辑: ShuYini
校稿: ShuYini
时间: 2019-8-16
代码示例
x_in=torch.tensor([[0, 1, 2], [3, 4, 5], [6, 7, 8]]).view((1,1,3,3)).type(torch.FloatTensor)
y_out=torch.tensor([[19, 25],[37, 43]]).view(1,1,2,2).type(torch.FloatTensor)
c_core=torch.randn(2,2).view((1,1,2,2)).type(torch.FloatTensor)
c_core=c_core.requires_grad_()
LR=0.01
# 定义一个损失函数
loss_fun=nn.MSELoss()
for i in range(10):
y_pre=nn.functional.conv2d(x_in,c_core)
loss=loss_fun(y_pre,y_out)
print(c_core.grad)
loss.backward()
c_core=c_core-c_core.grad*LR
print('the loss is:',loss)
print('c_core: ',c_core)
遇到的具体问题:
针对这个问题,在pytoch中直接报出来的错误是:
TypeError: unsupported operand type(s) for *: 'NoneType' and 'float'
针对这个报出来的问题,定位到当计算到“”c_core=c_core-c_core.grad*LR“”这句话时报错了,然后根据上面的输出才判断出来,原来c_core的grad为None。
##解决思路
后来经过查询才发现,当计算梯度的时候,只有叶子节点才会保留梯度,所有中间节点的grad在计算完backward()的时候为了节约内存都会被清除掉。(叶子节点是自己最初定义的变量)。此时查看我定义的c_core,确实是我最初定义的变量啊。但是有一些细节被忽略了,就是下面这句话:
c_core=c_core-c_core.grad*LR
其实上面这句话,已经对c_core做了改变,是经过计算得到的c_core,修改之后已经不是我们最初定义的变量了,而是成为了中间节点。为此怎么办呢?要保留中间节点其实很简单。就是在调用backward之前,首先调用c_core.retain_grad()。
##最终的代码修改为:
x_in=torch.tensor([[0, 1, 2], [3, 4, 5], [6, 7, 8]]).view((1,1,3,3)).type(torch.FloatTensor)
y_out=torch.tensor([[19, 25],[37, 43]]).view(1,1,2,2).type(torch.FloatTensor)
c_core=torch.randn(2,2).view((1,1,2,2)).type(torch.FloatTensor)
c_core=c_core.requires_grad_()
LR=0.01
# 定义一个损失函数
loss_fun=nn.MSELoss()
for i in range(10):
y_pre=nn.functional.conv2d(x_in,c_core)
loss=loss_fun(y_pre,y_out)
c_core.retain_grad()
loss.backward()
c_core=c_core-c_core.grad*LR
print('the loss is:',loss)
print('c_core: ',c_core)
最后
以上就是香蕉大叔为你收集整理的pytoch 设置了requires_grad=True,但是计算梯度(grad)为none的全部内容,希望文章能够帮你解决pytoch 设置了requires_grad=True,但是计算梯度(grad)为none所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复