预训练语言模型（三）：RNN和LSTMRNNLSTM

134 阅读 0 评论 89 点赞

我是靠谱客的博主明理毛衣，这篇文章主要介绍预训练语言模型（三）：RNN和LSTMRNNLSTM，现在分享给大家，希望可以做个参考。

参考一个很全的总结：
预训练语言模型的前世今生 - 从Word Embedding到BERT
RNN部分参考了这个：
循环神经网络
LSTM部分参考了这两个：
LSTM以及三重门，遗忘门，输入门，输出门
LSTM如何解决梯度消失与梯度爆炸

这儿对预训练模型又有了一点理解，也是之前在做VGG实验时在困惑的点，预训练模型在使用时可以有两种做法：一种是Frozen，将参数锁住，在下游应用时不再改变；另一种就是Fine-Tuning，即将参数初始化为预训练模型的参数，下游应用时这里的参数仍然可以改变。
好了进入正题：

RNN

RNN结构最大的特点就是融入了时序信息，其结构如下图所示：

左侧部分称为RNN的一个timestep，对于每一个时刻 $t$ ，输入的 $x_t$ 都可以计算出一个 $h_t$ ，将该信息传入下一个时刻 $t + 1$ ，这个过程是一个前馈神经网络；接收完一个序列中所有时刻的数据之后从 $x_t$ 时刻沿时间反向传播（BPTT）计算loss。
RNN的主体结构是 $A$ ， $A$ 的结构如下图所示，输入为 $h_{t-1},x_t)$ ，两个权重矩阵 $W_h$ 和 $W_x$ 可以分开，也可以合并在一起是一个 $W$ ：

可以看到，RNN解决了时序依赖问题，但这里的时序一般是短距离的，短距离依赖影响较大，长距离依赖影响很小（一般超过10步就无能为力了）。
导致长期依赖的原因，在于RNN训练时容易发生梯度爆炸和梯度消失。
梯度爆炸相对友好，因为这时程序会收到NaN错误，同时处理上也可以设置一个梯度阈值，当梯度超过这个阈值时进行截断。
对于梯度消失，主要采用以下三种方式：

合理地初始化权重值，使每个神经元尽可能不要取极大或极小值，以避开梯度消失的区域。
用ReLU代替sigmoid和tanh作为激活函数。
采用其它结构的RNNs，比如LTSM和GRU，这也是最流行的方法。

梯度消失原因：

前向传播过程包括：

隐藏状态： $h^{(t)}=sigma (z^{(t)})=sigma(Ux^{(t)}+Wh^{(t-1)}+b)$ ，此处激活函数一般为 $t a n h$
模型输出： $o^{(t)}=Vh^{(t)}+c$
预测输出： $hat{y}=sigma(o^{(t)})$ ，此处激活函数一般为 $s o f t m a x$
模型损失： $L=sum^T_{t=1}L^{(t)}$

RNN所有的timestep共享一套参数 $U, V, W$ ，在RNN反向传播的过程中，需要计算 $U, V, W$ 的梯度，以 $W$ 为例，如下（这是一个链式求导…微积分全不会了好无语…）：
$sum_{t=1}^Tfrac{partial L}{partial y^{(T)}} frac{partial y^{(T)}}{partial o^{(T)}} frac{partial o^{(T)}}{partial h^{(T)}}(prod_{k=t+1}^{T} frac{partial h^{(k)}}{partial h^{(k-1)}}) frac{partial h^{(t)}}{partial W}\ &=sum_{t=1}^Tfrac{partial L}{partial y^{(T)}} frac{partial y^{(T)}}{partial o^{(T)}} frac{partial o^{(T)}}{partial h^{(T)}}(prod_{k=t+1}^{T} tanh' (z^{(k)})W) frac{partial h^{(t)}}{partial W} end{aligned}$
对于公式中的 $(prod_{k=t+1}^{T} frac{partial h^{(k)}}{partial h^{(k-1)}})=(prod_{k=t+1}^{T} tanh' (z^{(k)})W)$ ，tanh的导数总是小于1的，又因为是 $(T - (t - + 1))$ 个timestep参数的连乘，所以如果 $W$ 小于1，梯度就会消失；如果 $W$ 的特征值大于1，梯度就会爆炸。
所以，RNN梯度消失的真正含义是，梯度被近距离(当 $(t + 1)$ 趋向于 $T$ )的梯度主导，远距离会发生爆炸或消失，导致模型难以学到远距离的信息。
值得强调的是，RNN的这一缺陷并非理论上的，而是技术实践上的。换言之，RNN在理论上是一个优秀的模型，前提是我们能够找到一组合适的参数，然而实践上这组参数并不好找。

LSTM

先来大致看看LSTM相比RNN的结构改变是什么，多了一个传输状态：

这个图是LSTM的timestep：

根据这个图，LSTM的前向传播过程包括：

遗忘门：接收 $t - 1$ 时刻的状态 $h_{t-1}$ 以及当前的输入 $x_t$ ，经过sigmoid函数之后输出一个0到1之间的值，输出为： $f_t=sigma(W_fh_{t-1}+U_fx_t+b_f)$
输入门：这里进行了两个操作，输出分别为： $i_t=sigma(W_ih_{t-1}+U_ix_t+b_i)$ ， $C_t=tanh(W_ah_{t-1}+U_ax_t+b_a)$
当前状态：输出为： $C_t=C_{t-1} odot f_t+i_t odot tilde C_t$
输出门：输出为： $o_t=sigma(W_oh_{t-1}+U_ox_t+b_o)$ ， $h_t=o_t odot tanh C_t$
预测输出： $(Vh_t+c)$

对于三个门的作用如下图所示：

关于LSTM如何RNN中解决梯度消失或爆炸：
如上文中所述，RNN中引起梯度消失或爆炸的点在于：
$prod_{k=t+1}^{T} frac{partial h^{(k)}}{partial h^{(k-1)}}=prod_{k=t+1}^{T} tanh' (z^{(k)})W$
在LSTM中这个公式是这样的：
$prod_{k=t+1}^{T} frac{partial h^{(k)}}{partial h^{(k-1)}}=prod_{k=t+1}^{T} tanh' sigma(W_fX_t+b_f)$
如果设 $Z = tanh (x) σ (y)$ ，其函数图像如下所示：

可以看到这个函数的值基本可以近似为0或1，这样就可以解决多个小于1或多个大于1的数相乘导致的梯度消失或梯度爆炸问题。
通过LSTM这种方式，除了在结构上天然地克服了梯度消失的问题，更重要的是能够具有更多的参数来控制模型；其参数量是RNN的四倍，能够更加精细地预测时间序列变量。