BP算法公式推导

65 阅读 0 评论 43 点赞

我是靠谱客的博主幸福金毛，这篇文章主要介绍BP算法公式推导，现在分享给大家，希望可以做个参考。

令 $W^l_{ji}$ 表示第 $l-1$ 层的第 $i$ 个神经元到第 $l$ 层的第 $j$ 个神经元的连接权值， $x^l_j$ 表示第 $l$ 层第 $j$ 个神经元的输入， $y^l_j$ 表示第 $l$ 层第 $j$ 个神经元的输出， $Theta^l_j$ 表示 $l$ 层第 $j$ 个神经元的偏置，C表示代价函数,

则有：

$x^l_j = sum _k w^l_{ji}y^{l-1}_i + Theta ^l_j$

$y^l_j = fleft ( x^l_j right )$

其中, $fleft ( cdot right )$ 表示激活函数。训练多层网络的目的就是使代价函数C最小化.

定义代价函数为:

$C= frac{1}{2}left | Y-y^L right |^2$

可以看出，这个函数依赖于实际的目标值 $Y$ ， $y^L$ 可以看成权值和偏置的函数,通过不断的修改权值和偏置值来改变神经网络的输出值.

接下来更新权值和偏置:

首先定义误差 $delta$ ,令 $delta ^l_j$ 表示第 $l$ 层第 $j$ 个神经元上的误差（？），定义为

$large delta ^l_j = delta x^l_j = frac{partial C}{partial x^l_j}$

由链式求导法则可得输出层的误差方程为：

$large delta ^l_j = delta x^l_j = frac{partial C}{partial y^l_j}{f left(x^l_jright)}'$

因为当前层神经元的输出是上一层神经元输出的线性组合，由链式法则可通过下层神经元的误差来表示当前层的误差：

$large delta ^l_j = delta x^l_j = frac{partial C}{partial x^l_j} = sum _i frac{partial C}{partial x^{l+1}_i} frac{partial x^{l+1}_i}{partial x^l_j} = sum _i frac{partial x^{l+1}_i}{partial x^l_j} delta x^{l+1}_i$ # 建立了前一层误差和后一层误差的关系