雪白季节

文章
8
资源
0
加入时间
3年1月10天

使用caffe训练时Loss变为nan的原因

梯度爆炸原因:梯度变得非常大,使得学习过程难以继续现象:观察log,注意每一轮迭代后的loss。loss随着每轮迭代越来越大,最终超过了浮点型表示的范围,就变成了NaN。措施: 1. 减小solver.prototxt中的base_lr,至少减小一个数量级。如果有多个loss layer,需要找出哪个损失层导致了梯度爆炸,并在train_val.prototxt中减