GRU结构为什么可以防止梯度消失whatwhy

201 阅读 0 评论 133 点赞

我是靠谱客的博主无私超短裙，这篇文章主要介绍GRU结构为什么可以防止梯度消失whatwhy，现在分享给大家，希望可以做个参考。

目录

what
why

what

所谓防止梯度消失，其实就是防止时间距离过大的两层神经元的参数w之间的联系过少，即 $d_{W_{j}}/d_{W_{i}}$ 过小，j和i的距离很大。

why

我们先看原始的RNN结构，从多对多的例子来看：

对w进行合并之后就是：
再看使用GRU之后的表达式：

我们可以看到，差别就是r和z的出现，**r是重置门，决定遗忘先前信息的程度。z是更新门，它决定了要忘记哪些信息以及哪些新信息需要被添加。**在添加这两个门之前，我们是完全接受 $h_{t}$ 而不再使用 $h_{t-1}$ 的，但是因为有了z门，我们对 $h_{t-1}$ 也赋予了话语权，这是最重要的，前面的激活值可以直接参与影响后面的激活值，即 $h_{t-1}$ 可以直接影响 $h_{t}$ ，这无意中影响了什么？当然影响了 $d_{w_{t}}/d_{w_{t-1}}$ ，大大增加了这个比值，但是这与原始的相比也仅仅是增大了相邻两个元素的梯度关联程度啊（即 $W_{t-1}对于W_{t}$ 的影响），并没有跨层影响啊。
这么想是错误的，下面看这个例子：

cat（下标i）对应was（下标j），cats对应were，然后中间经过了漫长的从句，所以说， $d_{W_{i}}对于d_{W_{j}}$ 的影响难道就没有了嘛？假如使用原始的结构的话，可以说影响很小，但是使用了GRU之后，我们可以看到上面，我们完全可以使中间经过的层的z等于0，这样的话，就可以使得 $d_{W_{i}}直接影响d_{W_{j}}$ 。
有的同学可能会问，这些z门会这么听话嘛？当然不会，可是我们可以训练啊，其实z也是个矩阵啊，它会注意到主语单词后缀为s这个特征可以影响谓语。很不可思议，其实我也刚接触RNN一天，我觉得是这样的，我觉得它是会学习到主谓宾结构等等的，因为我觉得人脑可以做到，大脑或许做得不够好，但是也会去模仿这个过程。此处的解释可能有些瑕疵，我会在以后学习RNN的过程中再体会，并可能做出修改。

最后

以上就是无私超短裙最近收集整理的关于GRU结构为什么可以防止梯度消失whatwhy的全部内容，更多相关GRU结构为什么可以防止梯度消失whatwhy内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(133)

本文分类：算法
浏览次数：201 次浏览
发布日期：2023-09-10 08:40:51
本文链接：https://www.kaopuke.com/article/k-p-k_14_uzo_6_fy_14__7__26_4.html

相关文章

神经网络梯度爆炸、消失问题、门控循环单元GRU、长短期记忆LSTM

神经网络梯度爆炸、消失问题、门控循环单元GRU、长短期记忆LSTM

【深度学习】防止梯度消失的方法权重初始化的角度网络结构的角度损失函数的角度学习率自适应的角度梯度截断、权重正则化（防止梯度爆炸）

【深度学习】防止梯度消失的方法权重初始化的角度网络结构的角度损失函数的角度学习率自适应的角度梯度截断、权重正则化（防止梯度爆炸）

循环神经网络--RNN GRU LSTM 对比分析一.全连接层、CNN、RNN三种网络结构的分析二.循环神经网络–RNN二.循环神经网络–LSTM、GRU

循环神经网络--RNN GRU LSTM 对比分析一.全连接层、CNN、RNN三种网络结构的分析二.循环神经网络–RNN二.循环神经网络–LSTM、GRU

深度学习——GRU单元GRU单元（Gated Recurrent Unit）

深度学习——GRU单元GRU单元（Gated Recurrent Unit）

GRU结构为什么可以防止梯度消失whatwhy

GRU结构为什么可以防止梯度消失whatwhy

深度学习图像算法在内容安全领域的应用实践和优化

深度学习图像算法在内容安全领域的应用实践和优化

谛听安全内容审核基础：审核方式与审核流程

谛听安全内容审核基础：审核方式与审核流程

如何设计短视频人工审核功能模型-谛听安全运营心得

如何设计短视频人工审核功能模型-谛听安全运营心得

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部