【PyTorch】RNN/LSTM/GRU 计算过程、参数以及使用RNN.LSTM.GRU.参考资料.

90 阅读 0 评论 60 点赞

我是靠谱客的博主懦弱月光，最近开发中收集的这篇文章主要介绍【PyTorch】RNN/LSTM/GRU 计算过程、参数以及使用RNN.LSTM.GRU.参考资料.，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

文章目录

RNN.
- 基本结构.
- PyTorch - RNN.
- - 计算规则.
  - 构造参数.
  - 输入参数.
  - 输出参数.
  - 权重初始化.
  - 代码示例.
LSTM.
- 基本结构.
- PyTorch - LSTM.
- - 构造参数.
  - 输入参数.
  - 输出参数.
  - 代码示例.
GRU.
参考资料.

RNN.

基本结构.

$R N N$ 图示一般如下所示，有回边来体现循环这一特征。

更容易直观理解的展开形式如下：
网络中传播规则如下： $o_t=g(Vcdot S_t)tag{1}$ $S_t=f(Ucdot x_t+Wcdot S_{t-1})tag{2}$ 其中 $f, g$ 是激活函数，可以相同也可以不同，常用的有 $R e L U, tanh$ 等。
【注意】我们将上述图示中 $o_t$ 记为输出值， $S_t$ 记为隐层值。 $P y T o r c h$ 中并没有严格的按照上图以及 $(1), (2)$ 两式构造循环神经网络，其中的区别在下面介绍。

PyTorch - RNN.

上面介绍的是基本 $R N N$ 单元，它是循环神经网络的最大特质体现， $P y T o r c h$ 文档中定义基本 $R N N$ 如下，逐步来剖析。

Applies a multi-layer Elman RNN with tanh or ReLU non-linearity to an input 
sequence.

网络结构采用 $E l m a n R N N$ ，是 $J e f f E l m a n$ 在 $1990$ 年提出来的，于 $J o r d a n R N N (1986)$ 的基础上进行了简化。 $E l m a n R N N$ 的隐层输出经过时延后作为下一时刻隐层输入的一部分，然后隐层输出同时送到网络后续的层，比如最终的输出层。 $J o r d a n R N N$ 则直接把整个网络最终输出层的输出经过时延后反馈回网络的输入层。

这里两种网络结构仅仅是理论上的结构，实际 $P y T o r c h$ 中实现 $E l m a n R N N$ 并未立即将隐层输出传递到输出层。

计算规则.

$P y T o r c h - R N N$ 的传递规则如下，对于输入序列中的每个元素，网络隐层(可以有多个) 按照如下规则计算： $h_t=tanhBig(W_{ih}x_t+b_{ih}+W_{hh}h_{t-1}+b_{hh}Big)tag{3}$ 其中 $h_t$ 是第 $t$ 位置时的隐层状态，也可以理解为隐层输出； $x_t$ 是第 $t$ 位置的输入； $W_{ih},W_{hh}$ 分别是从输入变量到隐层变量、隐层变量到隐层变量的权重矩阵，这一点观察下标很容易理解。将 $(3)$ 和 $(2)$ 做对比，不难发现其中： $h_tleftrightarrow S_t~,~Uleftrightarrow W_{ih}~,~Wleftrightarrow W_{hh}$ 并且存在偏置项 $b_{ih},b_{hh}.$
另外需要注意的是，在整个序列被计算完之前， $W_{ih},W_{hh},b_{ih},b_{hh}$ 是不会变化的，不同时刻的计算共享参数，直至输出后计算损失函数，后续执行反向传播过程。

构造参数.

$P y T o r c h - R N N$ 构造时参数列举如下：
$inuput_size$ 的释义略显模糊，具体地说，它是输入数据的特征数量。 $P y T o r c h - R N N$ 接收形如 $L,N,H_{in}]$ 的数据张量，其中 $L$ 是序列长度 $sequence_length$ ， $N$ 是批大小， $H_{in}$ 就是这里的 $input_size.$ 举例自然语言处理中，如果我们需要分析一个句子，句子有 $200$ 个单词，句子的每个单词都已经转化为 $300$ 维词向量，那么该数据张量的维度就是 $[200, 1, 300] .$
$hidden_size$ 是 $R N N$ 中隐层的节点数目，此时已经接收到了维度是 $300$ 的词向量，类比普通神经网络，即为输入维度是 $300 .$ 如果给定 $hidden_size=100$ ，那么隐层变量的维度就是 $100 .$ 此时回到 $(3)$ 表示的单步计算，可以认为： $h_t,b_{ih},b_{hh}inmathbb R^{100}$ $x_tinmathbb R^{300}$ $W_{ih}inmathbb R^{100times300}~;~W_{hh}inmathbb R^{100times100}$ $b_{ih},b_{hh}inmathbb R^{100}$
$num_layers$ 是最容易产生误解的参数，看了上面 $R N N$ 的展开图后，可能会将其理解为网络展开后的长度。但细细思考后不难发现，网络一轮计算何时停止，是由输入数据的序列长度决定的，例如这里我们假设句子长度为 $200$ ，那么网络展开后 $t \in [0, 200] .$ 实际 $num_layers$ 是 $P y T o r c h$ 中隐层层数，类比普通神经网络就不难理解了，只不过此处隐层的计算规则与彼时不同。以 $num_layers=2$ 为例， $P y t o c h - R N N$ 会将第一层计算得出的隐层值 $h_t^1$ 继续传递给第二隐层，因此计算规则可以简单地扩充如下： $h_t^1=tanhBig(W_{ih}^1x_t+b_{ih}^1+W_{hh}^1h_{t-1}^1+b_{hh}^1Big)tag{4.1}$ $h_t^2=tanhBig(W_{ih}^2h_t^1+b_{ih}^2+W_{hh}^2h_{t-1}^2+b_{hh}^2Big)tag{4.2}$ 注意 $hidden_size$ 未改变，因此本例中 $h_t^2inmathbb R^{100}.$
其余参数的意义均比较明确，值得一提的是 $b i d i r e c t i o n a l$ ，它将决定网络是基本 $R N N$ 还是能力更加强大的 $B R N N$ ，即双向循环神经网络。直观地说， $R N N$ 在计算 $h_t$ 时，只能将 $i \in [0, t - 1]$ 位置的信息纳入考虑；但 $B R N N$ 能够将 $i \in [0, L]$ 内的信息都纳入考虑，代价是更多的参数以及更大的计算量。

输入参数.

使用 $R N N$ 层进行前传时，需要给定输入数据和初始隐层状态 $h_0$ ，其中 $h_0$ 是可选的，如果不指定则默认使用全零向量。这里我们记输入数据组织为 $L,N,H_{in}]$ 的维度形式，并且网络为基本循环神经网络，隐层数量为 $N_l$ ，隐层节点数为 $H_{out}$ ，那么初始隐层状态的维度是 $N_l,N,H_{out}].$

输出参数.

$P y T o r c h - R N N$ 中的输出并非严格按照 $(1)$ 中直接计算 $o_t=g(Vcdot S_t)$ ，而是将所有时刻 $t$ 对应的最后隐层值组织成 $L,N,H_{out}]$ 形式的张量 $o u t p u t$ 交给程序员，保证后续灵活的处理。
其返回值分为两部分，第一部分就是 $o u t p u t$ ，第二部分则是 $h_n$ ，它给出最后一个位置的所有隐层状态，其维度是 $N_l,N,H_{out}].$
总结来说， $o u t p u t$ 给出所有位置在最后一个隐层的状态； $h_n$ 给出最后一个位置所有隐层状态。

权重初始化.

关于 $P y T o r c h - R N N$ 中参数的初始化，所有权重参数、偏置参数均从如下分布中随机产生： $hidden_size}tag{5}$

代码示例.

关于基本 $R N N$ 的使用，代码示例如下所示，观察输入数据维度，初始隐层状态维度以及输出数据维度，与上述计算过程相互验证。

# In[Import]
import torch
import torch.nn as nn

# In[RNN]
H_in = 10
H_out = hidden_size = 20
N_l = 2
Rnn = nn.RNN(H_in,hidden_size,N_l)

# In[Data]
L = 50
N = 16
x = torch.randn(L,N,H_in)
h_0 = torch.randn(N_l,N,H_out)

# In[Cal]
output,h_n = Rnn(x)

# print('output:',output)
print('output size:',output.size())
# print('h_n:',h_n)
print('h_n size:',h_n.size())

'''
output size: torch.Size([50, 16, 20])
h_n size: torch.Size([2, 16, 20])
'''

自然语言处理中，常见流程将经过词嵌入处理的词向量输入循环神经网络，得到隐层状态后再输入全连接层等后续处理。

self.embedding = nn.Embedding(n_vocab,emb_dims)
self.rnn = nn.RNN(emb_dims,h_out,n_l)
self.fc = nn.Linear(h_out,n_class)

LSTM.

清楚基本 $R N N$ 单元的计算过程及其在 $P y T o r c h$ 中的具体使用方法后，理解 $L S T M$ 就容易很多。 $L S T M$ 全称 $L o n g S h o r t - T e r m M e m o r y$ ，译为长短期记忆网络，由 $H o c h r e i t e r$ 和 $S c h m i d h u b e r$ 于 $1997$ 年提出，是针对标准 $R N N$ 中长期记忆不能很好这一问题做出改进的复杂循环神经网络。
更确切的说，长期记忆问题的出现是由于 $R N N$ 中大跨度时间 $t_1,t_2$ 对应梯度之间的依赖关系几乎不存在导致的。这也是所谓的循环神经网络梯度消失问题，这里的梯度消失并不是说梯度真的会趋近于零，而是和前时刻的关系变得越来越微弱，导致序列长度增大时，整个网络的结果不佳。例如下面这两个定语从句： $T h e c a t, w h i c h a t e l o t s o f c a t - f o o d, w a s f u l l .$ $T h e c a t s, w h i c h a t e l o t s o f c a t - f o o d, w e r e f u l l .$
如果需要对 $w a s, w e r e$ 进行预测，那么影响关系最强的单词就是前面的 $c a t, c a t s$ ，但我们知道中间的定语从句可以继续扩展，而非上面所示的五个单词。 $c a t - w a s, c a t s - w e r e$ 之间相距过远的后果就是二者依赖关系微弱，记普通循环神经网络无法很好地保持长期记忆。 $L S T M$ 通过引入门控单元，来加强远距离依赖关系的保持，从而一定程度上增强长期记忆。

基本结构.

下图是 $C o l a h$ 一篇传播很广的 $B l o g - 《 U n d e r s t a n d i n g L S T M N e t w o r k s 》$ 中展示的 $L S T M$ 单元：
但我个人更习惯从公式出发来理清 $L S T M$ 单元的计算规则，和 $(3)$ 类似， $L S T M$ 中也计算一个相同形式的量 $g_t$ ，作为最终隐层状态 $h_t$ 的一部分。其计算规则如下： $g_t=tanhbig(W_{ig}x_t+b_{ig}+W_{hg}h_{t-1}+b_{hg}big)tag{6.1}$ 隐层状态 $h_t$ 的计算规则如下： $h_t=o_todottanh(c_t)tag{6.2}$ 其中 $c_t$ 称为记忆单元，是 $c e l l$ 的首字母简写，它负责计算过往信息与当下信息的加权关系，其计算规则如下： $c_t=f_todot c_{t-1}+i_todot g_ttag{6.3}$ 至此未给出定义的量还有 $i_t,f_t,o_t$ ，它们是 $L S T M$ 中引入的三个门控，分别对应输入门 $i n p u t$ ，遗忘门 $f o r g e t$ 和输出门 $o u t p u t .$ 它们的计算规则完全一致，如下所示： $i_t=sigmabig(W_{ii}x_t+b_{ii}+W_{hi}h_{t-1}+b_{hi}big)tag{6.4}$ $f_t=sigmabig(W_{if}x_t+b_{if}+W_{hf}h_{t-1}+b_{hf}big)tag{6.5}$ $o_t=sigmabig(W_{io}x_t+b_{io}+W_{ho}h_{t-1}+b_{hi}big)tag{6.6}$
从 $L S T M$ 的图示中可以看到，在不同时刻之间传递的量是 $c_t,h_t$ ，并且在上方是 $c_t$ 的传递流，下方是 $h_t$ 的传递流，后面的代码中可以看到， $c_0,h_0$ 是需要人为给定的。

PyTorch - LSTM.

构造参数.

构造 $P y T o r c h - L S T M$ 时需要的参数如下所示：
构造参数基本与简单 $R N N$ 一致，重复的参数不再赘述。其中有两个参数是简单 $R N N$ 所没有的 —— $dropout,proj_size.$
$d r o p o u t$ 默认关闭，开启后会在多层 $L S T M$ 网络中引入 $d r o p o u t$ ，除了最后一层不受影响，该参数的值就是输出被乘以 $0$ 的概率。
$proj_size$ 默认关闭，开启后会将 $h_t$ 的最后一个维度经过投影 $h_t=W_{hr}h_t$ 后变为 $proj_size$ ，并且投影矩阵 $W_{hr}$ 是可学习的。

输入参数.

可以预见的， $L S T M$ 的输入参数会多于基本 $R N N$ ，首先是输入数据 $i n p u t$ ，而后是 $c_t,h_t$ 的初始值。
$i n p u t$ 的维度和基本 $R N N$ 中一致 —— $L,N,H_{in}]$ ，其中 $L$ 是序列长度， $N$ 的批大小， $H_{in}$ 是输入维度大小。
$h_0,c_0$ 的维度均为 $N_l,N,H_{out}]$ ，这里暂时不考虑参数 $proj_size$ 对于 $h_t$ 的影响， $N_l$ 是网络中隐层层数。
值得一提的是，在编码中需要将 $h_0,c_0$ 组织成元组形式输入，即 $h_0,c_0).$

输出参数.

和基本 $R N N$ 一致， $L S T M$ 会输出所有时刻 $t$ 最后一个隐层的状态 $h_t$ 张量，其维度是 $L,N,H_{out}].$
第二部分是元组 $h_n,c_n)$ ，包含最后时刻所有隐层的隐层状态，二者的维度均为 $N_l,N,H_{out}].$

代码示例.

观察输入数据维度，初始隐层状态维度以及输出数据维度。

# In[Import]
import torch
import torch.nn as nn

# In[LSTM]
H_in = 300
H_out = hidden_size = 50
N_l = 2
lstm = nn.LSTM(H_in,hidden_size,N_l)

# In[Data]
L = 20
N = 32
x = torch.randn(L,N,H_in)
h_0 = torch.randn(N_l,N,H_out)
c_0 = torch.randn(N_l,N,H_out)

# In[Cal]
output,(h_n,c_n) = lstm(x,(h_0,c_0))
print('output.size:',output.size())
print('h_n size:',h_n.size())
print('c_n size:',c_n.size())

'''
output.size: torch.Size([20, 32, 50])
h_n size: torch.Size([2, 32, 50])
c_n size: torch.Size([2, 32, 50])
'''

GRU.

通过最简单的 $R N N$ 来理清循环神经网络计算的大体流程后，又介绍了引入复杂门控运算的 $L S T M$ ，再来看 $G R U$ 就会相对轻松。
$G R U$ 可以视为 $L S T M$ 的简化版本，全称 $G a t e d R e c u r r e n t U n i t$ ，提出时间是 $2014$ 年，已经有了前两个部分作为基础，这里就直接给出计算规则。
首先同样会计算一个量 $n_t$ 作为最终隐层状态 $h_t$ 的部分，计算规则如下： $n_t=tanhBig(W_{in}x_t+b_{in}+r_todotbig(W_{hn}h_{t-1}+b_{hn}big)Big)tag{7.1}$ 其中 $h_t$ 就是 $G R U$ 中的隐层状态，计算规则如下： $h_t=(1-z_t)odot n_t+z_todot h_{t-1}tag{7.2}$ 至此未给出定义的量还有 $r_t,z_t$ ，在 $G R U$ 中分别称为重置门 $r e s e t$ 和更新门 $u p d a t e$ ，它们的计算规则一致，如下所示： $r_t=sigmabig(W_{ir}x_t+b_{ir}+W_{hr}h_{t-1}+b_{hr}big)tag{7.3}$ $z_t=sigmabig(W_{iz}x_t+b_{iz}+W_{hz}h_{t-1}+b_{hz}big)tag{7.4}$
$G R U$ 将 $L S T M$ 中的三个门控简化为两个，并且没有记忆单元 $c_t$ 在网络时间流中传递。 $P y T o r c h - G R U$ 的构造参数如下所示：
$P y T r o c h - G R U$ 的输入参数、输出参数均与标准 $R N N$ 一致，代码示例如下：

# In[Import]
import torch
import torch.nn as nn

# In[GRU]
H_in = 50
hidden_size = H_out = 20
N_l = 2
gru = nn.GRU(H_in,hidden_size,N_l)

# In[Data]
L = 30
N = 64
x = torch.randn(L,N,H_in)
h_0 = torch.randn(N_l,N,H_out)

# In[Cal]
output,h_n = gru(x)
print('output.size:',output.size())
print('h_n.size:',h_n.size())

'''
output.size: torch.Size([30, 64, 20])
h_n.size: torch.Size([2, 64, 20])
'''

参考资料.

Understanding LSTM Networks
Understanding LSTM Networks 译文 —— 理解 LSTM 网络
RNN两种网络类型（Jordan network和Elman network）区别
pytorch中RNN参数的详细解释
史上最详细循环神经网络讲解（RNN/LSTM/GRU —— (已断更，内容到 $L S T M$ 概述)

最后

以上就是懦弱月光为你收集整理的【PyTorch】RNN/LSTM/GRU 计算过程、参数以及使用RNN.LSTM.GRU.参考资料.的全部内容，希望文章能够帮你解决【PyTorch】RNN/LSTM/GRU 计算过程、参数以及使用RNN.LSTM.GRU.参考资料.所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错，欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：PyTorch
浏览次数：90 次浏览
发布日期：2024-05-13 07:55:01
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_7_o_26_f0_14__23__6_w.html

【PyTorch】RNN/LSTM/GRU 计算过程、参数以及使用RNN.LSTM.GRU.参考资料.

概述

文章目录

RNN.

基本结构.

PyTorch - RNN.

计算规则.

构造参数.

输入参数.

输出参数.

权重初始化.

代码示例.

LSTM.

基本结构.

PyTorch - LSTM.

构造参数.

输入参数.

输出参数.

代码示例.

GRU.

参考资料.

最后

评论列表共有 0 条评论

发表评论取消回复

【PyTorch】RNN/LSTM/GRU 计算过程、参数以及使用RNN.LSTM.GRU.参考资料.

概述

文章目录

RNN.

基本结构.

PyTorch - RNN.

计算规则.

构造参数.

输入参数.

输出参数.

权重初始化.

代码示例.

LSTM.

基本结构.

PyTorch - LSTM.

构造参数.

输入参数.

输出参数.

代码示例.

GRU.

参考资料.

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复