内向巨人

文章
10
资源
0
加入时间
2年10月17天

[模型基础] RNN | LSTM

RNN:在 t 时间点上将 t-1 时间点的隐节点 h(t-1) 作为当前时间点的输入(即每一个时间点的输出不仅仅取决于当前时间点的特征,还包括上一个时间点的信息)传统模型:每一个时间点的隐节点输出只取决于当前时间点的输入特征。每个时间点的隐因子:RNN问题:梯度爆炸解决方法:梯度截断,将超过某个阈值的梯度,截断到阈值(虽然改变了梯度,但是仍然可以保证loss下降)。而梯度消失,不能采用梯度截断方法来解决。因为长时间的依赖也会产生小的梯度,如果截断(会提高梯度值),对于模型而言,失去了捕捉长时间