温柔招牌

文章
6
资源
0
加入时间
2年10月17天

《动手学——循环神经网络进阶》笔记GRULSTM深度循环神经网络双向循环神经网络

GRU时间步数较大或者较小时,循环神经网络梯度较容易出现梯度衰减/梯度爆炸。虽然裁剪梯度可以应对梯度爆炸,但没法解决梯度衰减问题。所以提出⻔控循环神经⽹络GRU,来捕捉时间序列中时间步距离较⼤的依赖关系RNN存在的问题:梯度较容易出现衰减或爆炸(BPTT)⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系RNN:Ht=ϕ(XtWxh+Ht−1Whh+bh)H_{t} = ϕ...