RNN梯度消失和爆炸的原因
一个经典的RNN结构如下图所示: 假设我们的时间序列只有三段, S0S_0S0为给定值,神经元没有激活函数,则RNN最简单的前向传播过程如下:S1=WxX1+WsS0+b1O1=WoS1+b2S_{1}=W_{x} X_{1}+W_{s} S_{0}+b_{1} O_{1}=W_{o} S_{1}+b_{2}S1=WxX1+WsS0+b1O1=WoS1+b2S2=Wx...