循环神经网络——序列模型

90 阅读 0 评论 60 点赞

我是靠谱客的博主高兴哈密瓜，最近开发中收集的这篇文章主要介绍循环神经网络——序列模型，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

文章目录

- 循环神经网络 Recurrent Neural Networks
- - 前向传播
  - 代价函数
  - 反向传播
- 语言模型
- 门控循环单元 GRU (gated recurrent units)
- 长短时记忆单元 LSTM (long short time memory)
- 双向RNN (bidirectional RNN)
- 深层RNN

循环神经网络 Recurrent Neural Networks

前向传播

many-to-many 结构
$hat{y}^{<1>} && hat{y}^{<2>} && hat{y}^{<3>} & & hat{y}^{<T>} \ & uparrow && uparrow && uparrow && uparrow\ a^{<0>} rightarrow & boxed{begin{matrix} bigcirc \ bigcirc \ bigcirc \ bigcirc end{matrix}} & xrightarrow{a^{<1>}} & boxed{begin{matrix} bigcirc \ bigcirc \ bigcirc \ bigcirc end{matrix}} & xrightarrow{a^{<2>}} & boxed{begin{matrix} bigcirc \ bigcirc \ bigcirc \ bigcirc end{matrix}} & rightarrow cdots rightarrow & boxed{begin{matrix} bigcirc \ bigcirc \ bigcirc \ bigcirc end{matrix}} \ & uparrow && uparrow && uparrow && uparrow\ & x^{<1>} && x^{<2>} && x^{<3>} & & x^{<T>} \ end{array}$

或者表示成：

$hat{y}^{<1>} && hat{y}^{<2>} & & hat{y}^{<T>} \ & uparrow && uparrow & & uparrow\ a^{<0>} rightarrow & boxed{a^{<1>}} & rightarrow & boxed{a^{<2>}} & rightarrow cdots rightarrow & boxed{a^{<T>}} \ & uparrow && uparrow && uparrow \ & x^{<1>} && x^{<2>} & & x^{<T>} \ end{array}$

数学表达式：
$a^{<0>} &= vec{0} \ a^{<1>} &= g_{1}(W_{aa}a^{<0>} + W_{ax}x^{<1>} + b_{a}) = g_{1}(W_{a}[a^{<0>},x^{<1>}] + b_{a})\ y^{<1>} &= g_{2}(W_{y}a^{<1>} + b_{y}) \ vdots \ a^{<T>} &= g_{1}(W_{aa}a^{<T-1>} + W_{ax}x^{<T-1>} + b_{a}) = g_{1}(W_{a}[a^{<T-1>},x^{<t>}] + b_{a})\ y^{<T>} &= g_{2}(W_{y}a^{<T>} + b_{y}) \ end{aligned}$ 其中，激活函数 $g_{1}$ 通常取 tanh 或 relu， $g_{2}$ 取 sigmoid.

many-to-one 结构
例：输入一部影片，进行用户情感分析(喜欢/不喜欢)
$hat{y}^{<T>} \ &&&& & uparrow\ a^{<0>} rightarrow & boxed{a^{<1>}} & rightarrow & boxed{a^{<2>}} & rightarrow cdots rightarrow & boxed{a^{<T>}} \ & uparrow && uparrow && uparrow \ & x^{<1>} && x^{<2>} & & x^{<T>} \ end{array}$

one-to-one 结构
$\ & uparrow\ a^{<0>} rightarrow & boxed{a^{<1>}} \ & uparrow \ & x \ end{array}$

one-to-many 结构：如音乐生成器
$hat{y}^{<1>} && hat{y}^{<2>} & & hat{y}^{<T>} \ & uparrow && uparrow & & uparrow\ a^{<0>} rightarrow & boxed{a^{<1>}} & rightarrow & boxed{a^{<2>}} & rightarrow cdots rightarrow & boxed{a^{<T>}} \ & uparrow\ & x或phi \ end{array}$

其他many-to-many结构：
$hat{y}^{<1>} && hat{y}^{<T_{y}>} \ &&&&& uparrow && uparrow\ a^{<0>} rightarrow & boxed{a^{<1>}} & rightarrow cdots rightarrow & boxed{a^{<T_{x}>}} & rightarrow & boxed{a^{<T_{x}+1>}} & rightarrow cdots rightarrow & boxed{a^{<T_{x}+T_{y}>}} \ & uparrow && uparrow\ & x^{<1>} && x^{<T_{x}>} \ end{array}$

代价函数

$sum_{t=1}^{T} L^{<t>}(hat{y}^{<t>}, y^{<t>})$ 其中， $L^{<t>}(hat{y}^{<t>}, y^{<t>}) = -y^{<t>}loghat{y}^{<t>} - (1-y^{<t>})log(1-hat{y}^{<t>})$

反向传播

仅以 many-to-many 为例：
在这里插入图片描述

语言模型

RNN模型
对一个语言序列 $(y^{<1>}, y^{<2>}, cdots, y^{<T>})$ ，建立以下模型计算该序列的概率：
$&&begin{matrix}hat{y}^{<1>} \ shortparallel\ P(y^{<1>}) end{matrix} && begin{matrix}hat{y}^{<2>} \ shortparallel\ P(y^{<2>}|y^{<1>}) end{matrix} & & begin{matrix} hat{y}^{<T>} \ shortparallel \ P(y^{<T>}|y^{<1>},cdots,y^{<T-1>}) end{matrix}\ && uparrow && uparrow & & uparrow\ a^{<0>}=vec{0} &rightarrow & boxed{a^{<1>}} & rightarrow & boxed{a^{<2>}} & rightarrow cdots rightarrow & boxed{a^{<T>}} \ && uparrow && uparrow && uparrow \ && x^{<1>}=vec{0} && y^{<1>}& & y^{<T-1>} \ end{array}$
则
$P(y^{<1>}, y^{<2>}, cdots, y^{<T>}) = P(y^{<1>})P(y^{<2>}|y^{<1>})cdots P(y^{<T>}|y^{<1>},cdots,y^{<T-1>})$

损失函数
$-sum_{t}L(hat{y}^{<t>},{y}^{<t>})$ 其中，
$L(hat{y}^{<t>},{y}^{<t>}) = -sum_{i}y_{i}^{<t>}loghat{y}^{<t>}$

训练好模型后如何采样？
$&&begin{matrix}hat{y}^{<1>} \ shortparallel\ {argmax}{P(y^{<1>})} end{matrix} & & begin{matrix}hat{y}^{<2>} \ shortparallel\ {argmax}P(y^{<2>}|hat{y}^{<1>}) end{matrix} & & begin{matrix} hat{y}^{<T>} \ shortparallel \ {argmax}P(y^{<T>}|hat{y}^{<1>},cdots,hat{y}^{<T-1>}) end{matrix}\ && uparrow && uparrow & & uparrow\ a^{<0>}=vec{0} &rightarrow & boxed{a^{<1>}} & rightarrow & boxed{a^{<2>}} & rightarrow cdots rightarrow & boxed{a^{<T>}} \ && uparrow && uparrow && uparrow \ && x^{<1>}=vec{0} && hat{y}^{<1>}& & hat{y}^{<T-1>} \ end{array}$
在这里插入图片描述
可以以<EOS>为结束标志。

门控循环单元 GRU (gated recurrent units)

解决梯度消失问题
c：memory cell
$c^{<t>} &= tanh(W_{c}[Gamma_{r} times c^{<t-1>},x^{<t>}] + b_{c}) \ 相关门：Gamma_{r} &= sigma(W_{r}[c^{<t-1>},x^{<t>}] + b_{r}) \ 更新门：Gamma_{u} &= sigma(W_{u}[c^{<t-1>},x^{<t>}] + b_{u}) \ c^{<t>} &= Gamma_{u}times tilde c^{<t>} + (1-Gamma_{u}) times c^{<t-1>} \ a^{<t>} &= c^{<t>}\ end{aligned}$ 当 $Gamma_{u} approx 1$ 时， $c^{<t>} approx c^{<t-1>}$ .

长短时记忆单元 LSTM (long short time memory)

$c^{<t>} &= tanh(W_{c}[a^{<t-1>},x^{<t>}] + b_{c}) \ 更新门：Gamma_{u} &= sigma(W_{u}[a^{<t-1>},x^{<t>}] + b_{u}) \ 遗忘门：Gamma_{f} &= sigma(W_{f}[a^{<t-1>},x^{<t>}] + b_{f}) \ 输出门：Gamma_{o} &= sigma(W_{o}[a^{<t-1>},x^{<t>}] + b_{o}) \ c^{<t>} &= Gamma_{u}times tilde c^{<t>} + Gamma_{f} times c^{<t-1>} \ a^{<t>} &= Gamma_{o} times c^{<t>} end{aligned}$
在这里插入图片描述
GRU or LSTM ?
GRU 只有两个门控，更简单，可以看成是LSTM的简化；
LSTM 有三个门控，更强大和灵活。

双向RNN (bidirectional RNN)

在这里插入图片描述
如对于输出 $hat{y}^{<3>}$ ，即收到了来自过去 $x^{<1>}, x^{<2>}$ 的信息，又收到了来自现在 $x^{<3>}$ ，也收到了来自未来 $x^{<4>}$ 的信息。
在处理NLP问题中，带有LSTM的双向RNN是非常常用的。

深层RNN

$hat{y}^{<1>} && hat{y}^{<2>} & & hat{y}^{<T>} \ & uparrow && uparrow & & uparrow\ a^{[3]<0>} rightarrow & boxed{a^{[3]<1>}} & rightarrow & boxed{a^{[3]<2>}} & rightarrow cdots rightarrow & boxed{a^{[3]<T>}} \ & uparrow && uparrow & & uparrow\ a^{[2]<0>} rightarrow & boxed{a^{[2]<1>}} & rightarrow & boxed{a^{[2]<2>}} & rightarrow cdots rightarrow & boxed{a^{[2]<T>}} \ & uparrow && uparrow & & uparrow\ a^{[1]<0>} rightarrow & boxed{a^{[1]<1>}} & rightarrow & boxed{a^{[1]<2>}} & rightarrow cdots rightarrow & boxed{a^{[1]<T>}} \ & uparrow && uparrow && uparrow \ & x^{<1>} && x^{<2>} & & x^{<T>} \ end{array}$

如：其中 $a^{[2]<2>} = g(W_{a}^{[2]}[a^{[2]<1>]}, a^{[1]<2>}]+b^{[2]})$
当然，也可以把其中某些箭头去掉；每一个块不一定是标准的RNN，可以是LSTM或GRU；可以建立双向RNN.

最后

以上就是高兴哈密瓜为你收集整理的循环神经网络——序列模型的全部内容，希望文章能够帮你解决循环神经网络——序列模型所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错，欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：深度学习
浏览次数：90 次浏览
发布日期：2023-09-10 09:50:51
本文链接：https://www.kaopuke.com/article/k-p-k_14_uzo_6_fy_14__7_c4.html

循环神经网络——序列模型

概述

文章目录

循环神经网络 Recurrent Neural Networks

前向传播

代价函数

反向传播

语言模型

门控循环单元 GRU (gated recurrent units)

长短时记忆单元 LSTM (long short time memory)

双向RNN (bidirectional RNN)

深层RNN

最后

评论列表共有 0 条评论

发表评论取消回复

循环神经网络——序列模型

概述

文章目录

循环神经网络 Recurrent Neural Networks

前向传播

代价函数

反向传播

语言模型

门控循环单元 GRU (gated recurrent units)

长短时记忆单元 LSTM (long short time memory)

双向RNN (bidirectional RNN)

深层RNN

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复