【学习笔记】BP神经网络学习简介信息前向传播误差反向传播

153 阅读 0 评论 101 点赞

我是靠谱客的博主虚拟海燕，这篇文章主要介绍【学习笔记】BP神经网络学习简介信息前向传播误差反向传播，现在分享给大家，希望可以做个参考。

简介

误差反向传播算法简称反向传播算法（即BP算法）。
使用反向传播算法的多层感知器又称为BP神经网络。BP算法是一个迭代算法，它的基本思想为：

1、先计算每一层的状态和激活值，直到最后一层（前向传播）
2、计算每一层的误差，误差的计算过程是从最后一层向前推进的
3、更新参数（目标是误差变小）。迭代前面两个步骤，直到满足停止准则（比如相邻两次迭代的误差的差别很小）

本文约定

对于M-P神经元和感知机（简单的前馈神经网络）都在上一篇博文中介绍了，现在先规定一下下面讲解推到过程的时候的一些记号

$n_l$ 表示第 $l$ 层的神经元个数
$f (\cdot)$ 表示神经元的激活函数（激活函数我另外会再开一篇博文来记录）
$W^{(l)} in mathbb{R}^{n_l times n_l}$ 表示第 $l - 1$ 层到第 $l$ 层的权重矩阵
$w^{(l)}_{ij}$ 表示第 $l$ 层的第 $j$ 个神经元与上一个，即 $(l - 1)$ 层的第 $i$ 个神经元的连接权重
$b^{(l)}_i$ 表示第 $l$ 层的第 $i$ 个神经元的偏置
$b^{(l)} = (b^{(l)}_1, b^{(l)}_2,...,b^{(l)}_{n_l})^Tinmathbb{R}^n_l$ 表示第 $l - 1$ 层到第 $l$ 层的偏置
$z^{(l)}_i$ 表示第 $l$ 层中第 $i$ 个神经元节点的输入值
$z^{(l)} = (z^{(l)}_1, z^{(l)}_2,...,z^{(l)}_{n_l})^Tinmathbb{R}^n_l$ 表示第 $l - 1$ 层到第 $l$ 层的输入
$a^{(l)}_i$ 表示第 $l$ 层中第 $i$ 个神经元节点的激活值(输出值)

使用的图片来源网络，部分符号约定不同自行变通

本文以三层感知机为例

信息前向传播

由该神经网络可以得出第二层的参数

$$ z^{(2)}_1 = w^{2}_{11}x_1 + w^{2}_{21}x_2 + w^{2}_{31}x_3 + b^{(2)}_1$$ $$ z^{(2)}_2 = w^{2}_{12}x_1 + w^{2}_{22}x_2 + w^{2}_{32}x_3 + b^{(2)}_2$$ $$ z^{(2)}_3 = w^{2}_{13}x_1 + w^{2}_{23}x_2 + w^{2}_{33}x_3 + b^{(2)}_3$$ $$ a^{(2)}_1 = f(z^{(2)}_1) $$ $$ a^{(2)}_2 = f(z^{(2)}_2) $$ $$ a^{(2)}_3 = f(z^{(2)}_3) $$

并且，我们能够用相同的方法计算第三层的参数

$$ z^{(3)}_1 = w^{3}_{11}a^{(2)}_1 + w^{3}_{21}a^{(2)}_2 + w^{3}_{31}a^{(2)}_3 + b^{(3)}_1$$ $$ z^{(3)}_2 = w^{3}_{12}a^{(2)}_1 + w^{3}_{22}a^{(2)}_2 + w^{3}_{32}a^{(2)}_3 + b^{(3)}_2$$ $$ a^{(3)}_1 = f(z^{(3)}_1) $$ $$ a^{(3)}_2 = f(z^{(3)}_2) $$

所以可以总结出，第 $l (2 \leq l \leq L)$ 层神经元的输入和激活值(输出值)

$$ z^{(l)} = W^{(l)}a^{(l-1)} + b^{(l)} $$ $$ a^{(l)} = f(z^{(l)}) $$

所以对于前馈神经网络的信息前向传播的传递过程入下：

$$ x rightarrow a^{(1)} rightarrow z^{(2)} rightarrow ··· rightarrow z^{(L)} rightarrow a^{(L)} rightarrow y $$

误差反向传播

目的：调整 $w 、 b$ 权重和偏置直到最优，知道损失函数最小为止

使用方法：梯度下降法(本文使用批量梯度下降、~~随机梯度下降~~)

权重和偏置的更新规则为：

$$ w_{new} = w_{old} - mu frac{partial J_{total}}{partial w_{old}} $$ $$ b_{new} = b_{old} - mu frac{partial J_{total}}{partial b_{old}} $$

$w_{new}、w_{old}$ 表示该连接的新权重和旧的权重
$b_{new}、b_{old}$ 表示该连接的新偏置和旧的偏置
$J_{total}$ 表示每个 $x_{(i)},y_{(i)})$ 数据计算出的损失函数的平均

$μ$ 代表学习率，即“步长”

下面我们求损失函数(本文使用平均损失，交叉熵损失函数暂无)

对于训练数据为 ${(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(N)},y^{(N)})}$ 即总共由 $N$ 组训练数据(不含测试数据)，所以它最后的输出的训练实际值就有 $y^{(i)} = (y^{(i)}_1,···,y^{(i)}_{nL})^T$

对于某一个数训练数据 $x^{(i)},y^{(i)})$ 来说就有一个损失函数：

begin{equation}label{1} begin{aligned} J_{(i)} &= frac{1}{2}parallel y^{(i)}-o^{(i)}parallel \ &=frac{1}{2}sum^{n_L}_{k=1}(y^{(i)}_k-o^{(i)}_k)^2 end{aligned} end{equation}

$y^{(i)}$ 代表期望的输出，也就是我们自己给出的数据中的 $y$ 值
$o^{(i)}$ 为网络的实际输出

所以一个epoch下来，的平均损失：

$$ J_{total} = frac{1}{N} sum^{N}_{i=1}J_{(i)} $$

输出层权重更新

还是用本文前那个神经网络进行示例进行输出层权重的更新

$ J_{(3)} = frac{1}{2}parallel y^{(3)}-o{(3)}parallel qquad = frac{1}{2}parallel y^{(3)}-a{(3)}parallel qquad =frac{1}{2}left [(y^{(3)}_1-a{(3)}_1)^2+(y{(3)}_2-a^{(3)}_1)2 right ] qquad =frac{1}{2}left {left [y^{(3)}_1-f(z{(3)}_1)right]^2+left [y^{(3)}_2-f(z{(3)}2)right]^2right } qquad =frac{1}{2}left {left [y^{(3)}_1-f(w{3}{11}a^{(2)}_1 + w^{3}_{21}a{(2)}_2 + w^{3}_{31}a{(2)}3 + b^{{(3)}_1)right]}2+left [y^{(3)}_2-f(w{3}{12}a^{(2)}_1 + w^{3}_{22}a{(2)}_2 + w^{3}_{32}a{(2)}_3 + b^{{(3)}_2)right]}2right } $

由链式求导法则去分别对 $w^{(3)}_{11}、w^{(3)}_{21}、w^{(3)}_{31}$ 求偏导

$J_3}{partial w^{(3)}_{11}}=frac{partial J_{3}}{partial a^{(3)}_1}frac{partial a^{(3)}_1}{partial z^{(3)}_1}frac{partial z^{(3)}_1}{partial w^{(3)}_{11}}$
$J_3}{partial w^{(3)}_{21}}=frac{partial J_{3}}{partial a^{(3)}_1}frac{partial a^{(3)}_1}{partial z^{(3)}_1}frac{partial z^{(3)}_1}{partial w^{(3)}_{21}}$
$J_3}{partial w^{(3)}_{31}}=frac{partial J_{3}}{partial a^{(3)}_1}frac{partial a^{(3)}_1}{partial z^{(3)}_1}frac{partial z^{(3)}_1}{partial w^{(3)}_{31}}$
$J_3}{partial w^{(3)}_{12}}=frac{partial J_{3}}{partial a^{(3)}_2}frac{partial a^{(3)}_2}{partial z^{(3)}_2}frac{partial z^{(3)}_1}{partial w^{(3)}_{12}}$
$J_3}{partial w^{(3)}_{22}}=frac{partial J_{3}}{partial a^{(3)}_2}frac{partial a^{(3)}_2}{partial z^{(3)}_2}frac{partial z^{(3)}_1}{partial w^{(3)}_{22}}$
$J_3}{partial w^{(3)}_{32}}=frac{partial J_{3}}{partial a^{(3)}_2}frac{partial a^{(3)}_2}{partial z^{(3)}_2}frac{partial z^{(3)}_1}{partial w^{(3)}_{32}}$

再拿 $w^{(3)}_{11}$ 为例，带入求偏导得：

$J_3}{partial w^{(3)}_{11}}=frac{1}{2}cdot 2(y^{(3)}_1-a^{(3)}_1)(-frac{partial a^{(3)}_1}{partial w^{(3)}_{11}}) \ qquad quad = -(y^{(3)}_1-a^{(3)}_1) f'(z^{(3)}_1)frac{partial z^{(3)}_1}{partial w^{(3)}_{11}} \ qquad = -(y^{(3)}_1-a^{(3)}_1)f'(z^{(3)}_1)a^{(2)}_1$

根据上面的公式，我们令：

$delta^{(l)}_i = frac{partial J}{partial z^{(l)}_i}= frac{partial J}{partial a^{(l)}_i}frac{partial a^{(l-1)}_i}{partial z^{(l)}_i} = -(y^{(l)}_i-a^{(l)}_i)f'(z^{(l)}_i)$

所以：

$w^{(3)}_{11}}=delta^{(3)}_1a^{(2)}_1$
$w^{(3)}_{21}}=delta^{(3)}_1a^{(2)}_2$
$w^{(3)}_{31}}=delta^{(3)}_1a^{(2)}_3$
$w^{(3)}_{12}}=delta^{(3)}_2a^{(2)}_1$
$w^{(3)}_{22}}=delta^{(3)}_2a^{(2)}_2$
$w^{(3)}_{32}}=delta^{(3)}_2a^{(2)}_3$

所以，假设神经网络一共由 $L$ 层，那么对一般式而言：

$delta^{(L)}_i = -(y^{(L)}_i-a^{(L)}_i)f'(z^{(L)}_i)$
$J}{w^{(L)}_{ij}} = delta^{(L)}_ia^{(L-1)}_i$

对向量/矩阵运算：

$delta^{(L)} = -(y^{(L)}-a^{(L)})odot f'(z^{(L)})$
$bigtriangledown_{W^{(L)}}J = delta^{(L)}(a^{(L-1)})^T$

再用这个式子进行权重的更新即可

$$ w_{new} = w_{old} - mu frac{partial J_{total}}{partial w_{old}} $$

隐藏层权重更新

隐藏层的权重更新也是使用链式法则求偏导数，只不过平时使用的都是向量而已：

对 $w^{(2)}_{11}$ 更新：

$J_3}{partial w^{(2)}_{11}}=frac{partial J_{3}}{partial a^{(3)}_1}frac{partial a^{(3)}_1}{partial z^{(3)}_1}frac{partial z^{(3)}_1}{partial a^{(2)}_{1}}frac{partial a^{(2)}_{1}}{partial z^{(2)}_1}frac{z^{(2)}_1}{w^{(2)}_{11}}+frac{partial J_{3}}{partial a^{(3)}_2}frac{partial a^{(3)}_2}{partial z^{(3)}_2}frac{partial z^{(3)}_2}{partial a^{(2)}_{1}}frac{partial a^{(2)}_{1}}{partial z^{(2)}_1}frac{z^{(2)}_1}{w^{(2)}_{11}}$

再结合

$$ w_{new} = w_{old} - mu frac{partial J_{total}}{partial w_{old}} $$

其他隐藏层权重更新同理，在这里不再过多赘述

接着使用刚刚我们定义的 $delta^{(l)}_i$ 推导公式

$w^{(l)}_{ij}}=frac{partial J}{partial z^{(l)}_i}=delta^{(l)}_ifrac{partial z^{(l)}_i}{w^{(l)}_{ij}}=delta^{(l)}_ia^{(l-1)}_j$

当在隐藏层时，又链式法则和函数和求导公式就有：

$z^{(l)}_i} = frac{partial J}{partial z^{(l-1)}_1}frac{partial z^{(l-1)}_1}{partial z^{(i)}}+frac{partial J}{partial z^{(l-1)}_2}frac{partial z^{(l-1)}_2}{partial z^{(i)}}+···+frac{partial J}{partial z^{(l-1)}_{n_l+1}}frac{partial z^{(l-1)}_{n_l+1}}{partial z^{(i)}}=sum^{n_l+1}_{j=1}frac{partial J}{partial z^{(l+1)}_j}frac{partial z^{l+1}_j}{partial z^{l}_i}$

所以

$$ delta^{(l)}_i = frac{partial J}{partial z^{(l)}_i}=sum^{n_l+1}_{j=1}frac{partial J}{partial z^{(l+1)}_j}frac{partial z^{l+1}_j}{partial z^{l}_i}=sum^{n_l+1}_{j=1}delta^{(l+1)}_jfrac{partial z^{l+1}_j}{partial z^{l}_i} $$

又因为

$z^{(l+1)}_j=sum^{n_l}_{i=1}w^{(l+1)}_{ji}a^{(l)}_i+b^{(l+1)}_j = sum^{n_l}_{i=1}w^{(l+1)}_{ji}f(z^{(l)}_i)+b^{(l+1)}_j$

所以有：

$z^{(l+1)}_j}{partial z^{(l)}_i}= frac{partial z^{(l+1)}_j}{partial a^{(l)}_i}frac{partial a^{(l)}_i}{partial z^{(l)}_j}=w^{(l+1)}_{ji}f{z^{(l)}_i}$

再带入前面的 $delta^{(l)}_i$ ：

$$ delta^{(l)}_i = f'(z^{(l)}_i)sum^{n_l+1}_{j=1}delta^{(l+1)}_{j}w^{(l+1)}_{ji} $$ 对向量/矩阵运算： $$ delta^{(l)}_i = f'(z^{(l)}_i)odot (W^{(l+1)})^Tdelta^{(l+1)} $$

输出层偏置更新

偏置的更新其实和权重更新是一样的

输出层的偏置比较好算

$b^{(3)}_1} = frac{partial J}{partial a^{(3)}_1}frac{partial a^{(3)}_1}{partial z^{(3)}_1}frac{z^{(3)}_1}{b^{(3)}_1}$
$b^{(3)}_2} = frac{partial J}{partial a^{(3)}_2}frac{partial a^{(3)}_2}{partial z^{(3)}_2}frac{z^{(3)}_2}{b^{(3)}_2}$

再结合

$$ b_{new} = b_{old} - mu frac{partial J_{total}}{partial b_{old}} $$

隐藏层偏执更新

隐藏层偏置更新和权重更新也是一个道理

$b^{(2)}_1} = frac{partial J}{partial a^{(3)}_1}frac{partial a^{(3)}_1}{partial z^{(3)}_1}frac{z^{(3)}_1}{a^{(2)}_1}frac{a^{(2)}_1}{z^{(2)}_1}frac{z^{(2)}_1}{b^{(2)}_1}+frac{partial J}{partial a^{(3)}_2}frac{partial a^{(3)}_2}{partial z^{(3)}_2}frac{z^{(3)}_2}{a^{(2)}_1}frac{a^{(2)}_1}{z^{(2)}_1}frac{z^{(2)}_1}{b^{(2)}_1}$
$b^{(2)}_2} = frac{partial J}{partial a^{(3)}_1}frac{partial a^{(3)}_1}{partial z^{(3)}_1}frac{z^{(3)}_1}{a^{(2)}_2}frac{a^{(2)}_2}{z^{(2)}_2}frac{z^{(2)}_2}{b^{(2)}_2}+frac{partial J}{partial a^{(3)}_2}frac{partial a^{(3)}_2}{partial z^{(3)}_2}frac{z^{(3)}_2}{a^{(2)}_2}frac{a^{(2)}_2}{z^{(2)}_2}frac{z^{(2)}_2}{b^{(2)}_2}$
$b^{(2)}_3} = frac{partial J}{partial a^{(3)}_1}frac{partial a^{(3)}_1}{partial z^{(3)}_1}frac{z^{(3)}_1}{a^{(2)}_3}frac{a^{(2)}_3}{z^{(2)}_3}frac{z^{(2)}_3}{b^{(2)}_3}+frac{partial J}{partial a^{(3)}_2}frac{partial a^{(3)}_2}{partial z^{(3)}_2}frac{z^{(3)}_2}{a^{(2)}_3}frac{a^{(2)}_3}{z^{(2)}_3}frac{z^{(2)}_3}{b^{(2)}_3}$

再根据对权重的推论，同理可得：

$$ delta^{(l)}_i = frac{partial J}{partial b^{(l)}_i}=frac{partial J}{partial z^{(l)}_i}frac{partial z^{(l)}_i}{b^{(l)}_i} $$ 对向量/矩阵运算： $$ delta^{l}=bigtriangledown_b^{(l)}J $$

再结合：

$$ b_{new} = b_{old} - mu frac{partial J_{total}}{partial b_{old}} $$