陶醉耳机

文章
5
资源
0
加入时间
2年10月21天

LSTM与梯度消失

1. 标准RNN中处理序列数据的方法是将上一个state的信息传到下一个state中,表示成数学公式为st=f(W*(st-1,xt)+b),其中f为激活函数。在反向传播中,根据求导的链式法则,这种形式求得的梯度为一个矩阵W与激活函数导数的乘积。如果进行n次反向传播,梯度变化将会变为(W*f”)的n次方累乘。(1)如果乘积大于1,则梯度会随着反向传播层数n的增加而成指数增长,导致梯度爆炸;...