RNN 真的会梯度消失么
学过RNN的想必都听过下面的言论,“RNN容易产生梯度消失和梯度爆炸”,“RNN不能捕获长期记忆”,那么RNN为什么不能捕获长期记忆?RNN真的就会发生梯度消失和爆炸吗?先来个答案,当序列很长的时候,RNN确实不能捕获长期依赖关系,也确实容易梯度爆炸,但是否容易梯度消失,却要好好分析下,亦或者说,RNN梯度消失不同于我们往常理解的“MLP、CNN等里面的梯度消失”。详细解说请往下看~...