概述
这一讲主要研究RNN中梯度消失以及梯度爆炸问题,以及为解决梯度消失而设计的RNN模型的变种如LSTM,GRU等模型。
梯度消失
RNN理论上是可以捕捉较早的历史信息,但是由于Vanishing Gradient的问题会导致远程信息无法有效的被捕捉到。
RNN的输入、输出及hidden state的关系有如下的公式表示:
并且其损失函数为
所以损失函数相对于W的梯度为
其中
假设矩阵W的最大的本征值也小于1,则t-k越大即其相距越远,其梯度会呈指数级衰减,这一问题被称作vanishing gradient梯度消失,它导致我们无法分辨t时刻与k时刻究竟是数据本身毫无关联还是由于梯度消失而导致我们无法捕捉到这一关联。这就导致了我们只能学习到近程的关系而不能学习到远程的关系,会影响很多语言处理问题的准确度。</
最后
以上就是虚幻柠檬为你收集整理的lstm 损失降不下去_CS224N笔记(七):梯度消失、LSTM与GRU的全部内容,希望文章能够帮你解决lstm 损失降不下去_CS224N笔记(七):梯度消失、LSTM与GRU所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复