lstm如何解决梯度消失\爆炸
RNN梯度消失的原因是,随着梯度的传导,梯度被近距离梯度主导,模型难以学习到远距离的信息。具体原因也就是∏Tk=t+1∂h(k)∂h(k−1)部分,在迭代过程中,每一步∂h(k)∂h(k−1)始终在[0,1]之间或者始终大于1。tanh的导数总是小于1 的, 如果Ws也是一个大于0小于1的值, 那么随着t的增大, 上述公式的值越来越趋近于0, 这就导致了梯度消失问题。 那么如果Ws很大, 上述公式会越来越趋向于无穷, 这就产生了梯度爆炸.LSTM遗忘门值可以选择在[0,1]之间,让LSTM来..