【动手深度学习-笔记】批量规范化（Batch Normalization）

60 阅读 0 评论 40 点赞

我是靠谱客的博主危机期待，最近开发中收集的这篇文章主要介绍【动手深度学习-笔记】批量规范化（Batch Normalization），觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

为什么要批量规范化？

深层的神经网络有一个特点，就是它的数据端（浅层）到损失端（深层）的“距离”是很远的，
利用反向传播（深层→浅层）进行训练的时候，浅层往往训练的比较慢，
一旦浅层发生变化，所有的层都要跟着变，所以深度较大的层要重新学习多次，导致收敛变慢。
批量规范化（Batch Normalization，简称BN）可以稳定数据的分布，使得深层对于浅层的变化不那么敏感。

如何批量规范化？

全连接层

对全连接层，BN作用在特征维。
具体来说，就是对于全连接层的输入输出的一个批量 $B$ ，我们可以看成一个矩阵，每行是一条数据样本，每一列是一个特征向量，BN会对每一列的特征向量进行规范化操作。

先求出特征向量的均值 $hat{boldsymbol{mu}}_mathcal{B}$ 和方差 ${hat{boldsymbol{sigma}}_mathcal{B}}$ 的估计值：
$hat{boldsymbol{mu}}_mathcal{B} &= frac{1}{|mathcal{B}|} sum_{mathbf{x} in mathcal{B}} mathbf{x},\ hat{boldsymbol{sigma}}_mathcal{B}^2 &= frac{1}{|mathcal{B}|} sum_{mathbf{x} in mathcal{B}} (mathbf{x} - hat{boldsymbol{mu}}_{mathcal{B}})^2 + epsilon.end{aligned}end{split}$
其中 $x \in B$ 表示一个来自小批量 $B$ 的输入特征；
此外，在方差估计值中添加一个小的常量 $ϵ > 0$ ，避免 ${hat{boldsymbol{sigma}}_mathcal{B}}$ 为零（后面 ${hat{boldsymbol{sigma}}_mathcal{B}}$ 要作为分母）
再根据以下表达式转换 $x$ ：
$hat{boldsymbol{mu}}_mathcal{B}}{hat{boldsymbol{sigma}}_mathcal{B}} + boldsymbol{beta}.$
其中拉伸参数（scale） $γ$ 和偏移参数（shift） $β$ ，它们的形状与 $x$ 相同。是需要与其他模型参数一起学习的参数。

卷积层

对卷积层，BN作用在通道维。思想和将1X1卷积层看作全连接层类似。
通道维可以看作是特征维，BN会对每一个通道的输出进行规范化操作。
举个例子，假设我们的小批量包含 $m$ 个样本，并且对于每个通道，卷积的输出具有高度 $p$ 和宽度 $q$ 。那么对于卷积层，我们在每个输出通道的 $m \cdot p \cdot q$ 个元素上同时执行每个批量规范化。
因此，在计算平均值和方差时，我们会收集所有空间位置的值，然后在相同通道内应用相同的均值和方差，以便在每个空间位置对值进行规范化。