深度学习训练中噪声减小吗_深度学习中的噪声-梯度噪声[1]

77 阅读 0 评论 51 点赞

我是靠谱客的博主细腻宝贝，最近开发中收集的这篇文章主要介绍深度学习训练中噪声减小吗_深度学习中的噪声-梯度噪声[1]，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

我们来介绍深度学习训练中的梯度噪声问题，首先大家一定会问：神经网络在不加入随机层的情况下每一步都是确定的，似乎没有随机的成分，为什么会有噪声呢？这一个问题的回答：如果不加入随机层，并且使用了梯度下降，每一次迭代均使用整个数据集，那么神经网络的训练确实是确定性的，此时求解的问题是：

其中

为神经网络的权重，当然，一般而言这是一个非凸的问题。等等，这明明是一个标准的梯度下降嘛，常用的深度学习训练算法不是随机梯度下降吗？

是的，这是一个梯度下降，随机来源于实际操作。实际上做法如下：在第

次迭代中，从数据集中随机抽样

个样本（有放回或者无放回均可），构成batch

，然后在batch上估计梯度，进行梯度下降，即：

问题一：，噪声在哪里？噪声来自梯度，表现为batch上的梯度对平均值的偏移（若梯度是无偏估计，那么平均值就是真实值），即每一步迭代上都有随机噪声：

问题二：噪声

服从什么分布，如何分析？方法是联系大数定律。

噪声呈现估计值减去均值的情形，非常类似于大数定律和中心极限定理，我们先回顾一下中心极限定理：

独立同分布随机变量的中心极限定理

令

为独立同分布随机变量序列，并且满足

并且令

那么随着

，我们有：

其中

这个定理说什么，对于独立同分布的随机变量序列，在均值与方差均存在的情况下，序列的和减去和的均值再除以标准差按分布收敛于标准正态分布

联想一下batch的大小和batch上梯度的估计，假定每一个样本的计算梯度都是独立同分布的，再假定梯度的均值与方差存在，我们就可以利用大数定律来近似估计很大batch情况下的噪声了，就是高斯随机变量而已。

这样，我们实际训练中的过程就可以用如下迭代来近似了：

其中

是标准正态随机变量

看起来非常完美，高斯分布就能够描述噪声，但是有两个小假定：随机变量的均值和方差必须存在。如果违背，那么。。。

会不会出现非高斯分布呢？答案是会的

大数定律是否只能诞生高斯分布呢？为了刻画这一个问题，我们需要一些新的概念。我们将大数定律倒过来考虑，怎么样的随机变量可以写成一系列独立同分布随机变量的和？

我们引入一个定义-infinitely divisible：

定义一个随机变量

具有分布函数

和特征函数

并且针对每一个

存在一系列独立同分布随机变量

使得

，那么

被称为infinitely divisible随机变量，对应的特征函数满足

接下来的定理说明了条件：

定理一个随机变量

在分布意义上可以视为一个随机变量序列

的极限当且仅当

为infinitely divisible.

这个定理说了什么呢？对于一个infinitely divisible的随机变量，我们可以将其视为随机变量序列的极限，考虑一下大数定律，似乎有这个味道了.那是，我们考察了

，其中

是一系列随机变量的和，我们将其写成一般化的形式

,也就是说

，现在问题转化为怎么样的随机变量

可以写成形式：

现在可以给出形式化的定义：

定义随机变量

为 stable当且仅当其与随机变量

依分布相等，其中

为独立同分布随机变量。

我们现在知道了如下情况，只要满足stable的随机变量均可以写成一系列随机变量的和减去常数在除以常数的形式，正好对应最一开始的梯度的形式。也可以说，我们需要寻找的infinitely divisible的随机变量可以转而寻找stable的随机变量了，因为stable随机变量一定是infinitely divisible。
一般的stable随机变量满足什么性质呢？借助Levy-Khinchin表示，可以得出：

定理随机变量

为stable当且仅当其特征函数满足形式

其中

并且函数

满足：

注：可以补充

时候的情形将

的取值范围扩充到

最常用的是对称的随机变量，为什么用对称的随机变量呢，说明采样值围绕均值对称，即噪声随机变量关于原点对称，此时特征函数满足条件：

至此，我们给出了另一种可能的梯度噪声的特征函数，特征函数可以确定概率分布
问题三：比较这样推广的噪声模型与原来的高斯分布有什么关系？

首先，取

那么回忆均值

，方差

的高斯分布特征函数：

可以知道，与stable随机变量中

的情形一致，因此可以找到对应的均值

与方差

，因此回到高斯分布。

另一个特殊的例子是柯西分布：

我们立刻可以得到对应的柯西分布参数为

，即概率密度为：

注意柯西分布的期望不存在，因此二阶矩，三阶矩等高阶矩均不存在（因为高阶矩存在，低阶矩一定存在，可以将随机变量

拆成

两部分,讨论大于一的部分即可得证）。

但是我们知道柯西分布不存在期望，方差，不能应用传统意义上的中心极限定理，但是柯西随机变量是stable的随机变量，其分布的和满足的分布还是可以写出来。根据stable随机变量的性质，可以考虑将

-stable的随机变量用于建模噪声，实际

问题中还是假定噪声分布对称，因此我们引入对称-stable分布

来近似梯度噪声:

进一步假定分布的参数

一个常数（和大数定律类似），那么可以成为一个标度因子，进一步可以写成

的形式，其中

。在高斯分布中

，分布的参数为

因此对应的系数需要写成

，这里可以利用stable的概念将对应的SGD过程近似为：

相对高斯分布近似的SGD

而言，两者的不同在哪里呢？主要是尾部，下一批文章将计划讲述两者尾部的不同，以及尾部的主要研究方法。

且听下回分解。

主要参考文献：
[1] Albert N. Shiryaev Pribability-1 GTM 95
[2] Umut Simsekl et al., A Tail-Index Analysis of Stochastic Gradient Noise in Deep Neural Network ICML 2019