概述
文章目录
- 前言
- 一、为什么要用LSTM?
- 二、LSTM结构介绍
- 1.大体结构
- 2.三个门结构
- 总结
前言
一些关于LSTM的学习记录。
一、为什么要用LSTM?
LSTM(Long short-term memory),长短时记忆网络。
在学习LSTM之前,我们首先应当掌握RNN网络的相关知识,RNN是循环神经网络,是一个高度重视序列信息的网络。序列,即意味着“前后关系”。
RNN的基础结构仍是神经网络,但为了存放序列信息,其比全连接多了隐藏层的循环操作,它具有一定的记忆功能,但其缺点是输入数据越早,在隐藏层所占据的影响越小,故为克服其弊端,LSTM由此诞生。
二、LSTM结构介绍
1.大体结构
LSTM参考人类的记忆模式,记住重要的信息、遗忘相对不重要的信息,为了实现这个功能,相对于RNN网络而言,LSTM增加了细胞状态(Cell State),我们可以将它看作是关于信息的“记忆”,上一层的细胞状态经过遗忘和新的记忆的选择存储后,继续流向下一个细胞。
这里图中可见,细胞状态 Ct在最上面传播,隐藏层状态ht在下面传播,他们的初始状态为全0。隐藏层状态ht-1与新的输入xt对细胞状态进行修改。
在一个细胞中包含三个门,从左到右依次是遗忘门、输入门和输出门。
2.三个门结构
(1)遗忘门
遗忘门将上一层的隐藏状态ht和当前的输入Xt进行拼接,传入sigmod函数中,映射到[0,1]中,越接近0则意味着越应该被丢弃,越接近1则意味着越应该被保留。与上一层的细胞状态Ct-1相乘,就是完成了对Ct-1中信息的选择,对不重要信息的遗忘。
(2)输入门
输入门决定加入多少新输入的信息到细胞状态中来。可以看到输入门分为 it 和 Ct 两部分,前者同遗忘门类似,将其映射到[0,1]之间,0表示不重要,1表示重要;后者输入tanh函数。 it 与后者相乘,决定了tanh输出结果的保留与舍弃,在这里我们将它看作是新输入信息的保留。
接下来就是对细胞状态的更新,经遗忘门与上层细胞状态点乘后得到的结果,与输入门得到的结果相加,就完成了对上层不重要信息的遗忘和新加入信息的选择保留,即结束了对细胞状态的更新。
(3)输出门
输出门确定的是将细胞状态的多少部分输出为隐藏状态的值ht。首先将已更新的细胞状态经过一个tanh函数的映射,与ht-1和xt经sigmod函数映射后的门相乘,确定隐藏状态应携带的信息。最后将更新后的隐藏状态ht和细胞状态Ct输入下一时刻。
总结
最后梳理:
遗忘门决定了遗忘多少上一层的细胞状态;
输入门决定保留多少新输入的信息;
输出门决定携带多少信息作为隐藏状态输入下一时刻的细胞。
在结构图中,细胞状态始终在最上面的线路进行更新传播,隐藏状态在下面线路;
细胞状态和隐藏状态的初始状态为全0;
细胞状态通过隐藏状态和输入信息进行调整和更新,隐藏状态通过更新后的细胞状态进行更新。
最后
以上就是等待黑裤为你收集整理的LSTM学习记录前言一、为什么要用LSTM?二、LSTM结构介绍总结的全部内容,希望文章能够帮你解决LSTM学习记录前言一、为什么要用LSTM?二、LSTM结构介绍总结所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复