GRU结构为什么可以防止梯度消失whatwhy
目录whatwhywhat所谓防止梯度消失,其实就是防止时间距离过大的两层神经元的参数w之间的联系过少,即dWj/dWid_{W_{j}}/d_{W_{i}}dWj/dWi过小,j和i的距离很大。why我们先看原始的RNN结构,从多对多的例子来看:对w进行合并之后就是:再看使用GRU之后的表达式:我们可以看到,差别就是r和z的出现,**r是重置门,决定遗忘先前信息的程度。z是更新门,它决定了要忘记哪些信息以及哪些新信息需要被添加。**在添加这两个门之前,我们是完全接受hth