深度学习：循环神经网络（RNN）的变体LSTM、GRULSTMGRU

218 阅读 0 评论 144 点赞

我是靠谱客的博主现实镜子，这篇文章主要介绍深度学习：循环神经网络（RNN）的变体LSTM、GRULSTMGRU，现在分享给大家，希望可以做个参考。

我自己搭建了博客，以后可能不太在CSDN上发博文了，https://www.qingdujun.com/ 。

假设我们试着去预测“I grew up in France… I speak fluent French”最后的词French。当前的信息建议下一个词可能是一种语言的名字，但是如果我们需要弄清楚是什么语言，我们是需要先前提到的离当前位置很远的 France 的上下文的。这说明相关信息和当前预测位置之间的间隔就肯定变得相当的大。

不幸的是，在这个间隔不断增大时，RNN 会丧失学习到连接如此远的信息的能力。

LSTM

Long Short-Term Memory—— 一般就叫做 LSTM，是一种 RNN特殊的类型，可以学习长期依赖信息。

LSTM 通过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是 LSTM 的默认行为，而非需要付出很大代价才能获得的能力！

这里写图片描述

忘记门，在我们 LSTM 中的第一步是决定我们会从细胞状态中丢弃什么信息。这个决定通过一个称为忘记门层完成。（eg. 一句话中，当我们看到新的主语，我们希望忘记旧的主语。）
输入门，确定什么样的新信息被存放在细胞状态中。
输出门，实际去执行——丢弃掉我们确定需要丢弃的信息，更新需要更新的信息。

GRU

Gated Recurrent Unit——一般叫做GRU，作为LSTM的一种变体，通过分析LSTM架构中哪些部分是真正需要的，进行了改进，将忘记门和输入门合成了一个单一的更新门。同样还混合了细胞状态和隐藏状态，加诸其他一些改动。最终的模型比标准的 LSTM 模型要简单，也是非常流行的变体。

这里写图片描述