我是靠谱客的博主 苹果日记本,最近开发中收集的这篇文章主要介绍记录LSTM公式、梯度消失现象/解决,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

一. LSTM公式:

二. 简单总结:

        1. RNN梯度

RNN中同样的权重在各个时间步共享,最终的梯度为

各个时间步骤梯度的和。

        2. 梯度消失现象怎么产生?:

RNN的梯度消失是指梯度被近距离梯度所主导,远距离梯度由于连乘导致太小,不能获取远距离的依赖关系。

比如sigmoid函数,导数最大值为1/4(y-y^2),  tanh 导数最大值为1. (1 - y^2)。

        3. LSTM怎么解决RNN梯度消失问题?:

                主要是通过Ct-1到Ct的优化:

这条路径上只有逐元素相乘和相加的操作,没有激活函数,梯度流最稳定,类似残差函数的输入X,展开后如图:

保证了主干道梯度流的稳定(正常梯度 + 消失梯度= 正常梯度

        4. LSTM仍可能发生梯度爆炸:

总的远距离梯度 = 正常梯度 + 爆炸梯度 = 爆炸梯度

但lstm相比于rnn,激活函数更多,更不容易发生梯度爆炸。

梯度爆炸后采用梯度裁剪解决。

ref:

LSTM如何来避免梯度弥散和梯度爆炸? - 知乎

最后

以上就是苹果日记本为你收集整理的记录LSTM公式、梯度消失现象/解决的全部内容,希望文章能够帮你解决记录LSTM公式、梯度消失现象/解决所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(56)

评论列表共有 0 条评论

立即
投稿
返回
顶部