RNN中的梯度消失/爆炸原因
RNN中的梯度消失/爆炸原因梯度消失/梯度爆炸是深度学习中老生常谈的话题,这篇博客主要是对RNN中的梯度消失/梯度爆炸原因进行公式层面上的直观理解。首先,上图是RNN的网络结构图,(x1,x2,x3,…,)(x_1, x_2, x_3, …, )(x1,x2,x3,…,)是输入的序列,XtX_tXt表示时间步为ttt时的输入向量。假设我们总共有kkk个时间步,用第kkk个时间步的输出...