概述
一. LSTM公式:
二. 简单总结:
1. RNN梯度:
RNN中同样的权重在各个时间步共享,最终的梯度为
各个时间步骤梯度的和。
2. 梯度消失现象怎么产生?:
RNN的梯度消失是指梯度被近距离梯度所主导,远距离梯度由于连乘导致太小,不能获取远距离的依赖关系。
比如sigmoid函数,导数最大值为1/4(y-y^2), tanh 导数最大值为1. (1 - y^2)。
3. LSTM怎么解决RNN梯度消失问题?:
主要是通过Ct-1到Ct的优化:
这条路径上只有逐元素相乘和相加的操作,没有激活函数,梯度流最稳定,类似残差函数的输入X,展开后如图:
保证了主干道梯度流的稳定(正常梯度 + 消失梯度= 正常梯度)
4. LSTM仍可能发生梯度爆炸:
总的远距离梯度 = 正常梯度 + 爆炸梯度 = 爆炸梯度
但lstm相比于rnn,激活函数更多,更不容易发生梯度爆炸。
梯度爆炸后采用梯度裁剪解决。
ref:
LSTM如何来避免梯度弥散和梯度爆炸? - 知乎
最后
以上就是苹果日记本为你收集整理的记录LSTM公式、梯度消失现象/解决的全部内容,希望文章能够帮你解决记录LSTM公式、梯度消失现象/解决所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复