LSTM与GRU的扼要理解LSTM：三个门 - 遗忘门、输入门、输出门GRU：两个门 - 更新门、重置门RNN：没有门结构

113 阅读 0 评论 75 点赞

我是靠谱客的博主自觉吐司，这篇文章主要介绍LSTM与GRU的扼要理解LSTM：三个门 - 遗忘门、输入门、输出门GRU：两个门 - 更新门、重置门RNN：没有门结构，现在分享给大家，希望可以做个参考。

LSTM：三个门 - 遗忘门、输入门、输出门

门可以理解为mask，用来过滤筛选信息。
LSTM细胞结构
单次输入、细胞状态、单次输出，均是列向量。即总的输入是一连串的列向量。

解释：除去最右边的蓝色tanh，其他每一个激活函数图标，都代表着 f(Wx+b) 即激活一个线性运算。三个门共四个要激活的线性运算，代表着四对可训练的矩阵W和截距b。这四对参数才是LSTM训练过程中真正在训练的东西。由于细胞状态c与隐状态h的维数相同（记做k），与输入的维数i无关，故四个矩阵W均是k*(k+i)维。

注意1：k与i均可在搭建时设定，即同CNN一样，LSTM也有改变特征维数的功能。

注意2：tanh输出-1到1，sigmoid输出0到1，所以在不同时候使用，起到不同效果。

参数量：4k(k+i)+4k （即4个W和4个b）

问题思考：细胞状态c和隐状态h貌似有部分功能重复的嫌疑？

问题解决：新出的GRU合并了隐状态和细胞状态。与LSTM效果差不多，但参数更少，更不容易过拟合。