概述
我们来介绍深度学习训练中的梯度噪声问题,首先大家一定会问:神经网络在不加入随机层的情况下每一步都是确定的,似乎没有随机的成分,为什么会有噪声呢?这一个问题的回答:如果不加入随机层,并且使用了梯度下降,每一次迭代均使用整个数据集,那么神经网络的训练确实是确定性的,此时求解的问题是:
其中
是的,这是一个梯度下降,随机来源于实际操作。实际上做法如下:在第
问题一:,噪声在哪里?噪声来自梯度,表现为batch上的梯度对平均值的偏移(若梯度是无偏估计,那么平均值就是真实值),即每一步迭代上都有随机噪声:
问题二:噪声
噪声呈现估计值减去均值的情形,非常类似于大数定律和中心极限定理,我们先回顾一下中心极限定理:
独立同分布随机变量的中心极限定理
令
其中
这个定理说什么,对于独立同分布的随机变量序列,在均值与方差均存在的情况下,序列的和减去和的均值再除以标准差按分布收敛于标准正态分布
联想一下batch的大小和batch上梯度的估计,假定每一个样本的计算梯度都是独立同分布的,再假定梯度的均值与方差存在,我们就可以利用大数定律来近似估计很大batch情况下的噪声了,就是高斯随机变量而已。
这样,我们实际训练中的过程就可以用如下迭代来近似了:
其中
看起来非常完美,高斯分布就能够描述噪声,但是有两个小假定:随机变量的均值和方差必须存在。如果违背,那么。。。
会不会出现非高斯分布呢?答案是会的
大数定律是否只能诞生高斯分布呢?为了刻画这一个问题,我们需要一些新的概念。我们将大数定律倒过来考虑,怎么样的随机变量可以写成一系列独立同分布随机变量的和?
我们引入一个定义-infinitely divisible:
定义 一个随机变量
接下来的定理说明了条件:
定理 一个随机变量
这个定理说了什么呢?对于一个infinitely divisible的随机变量,我们可以将其视为随机变量序列的极限,考虑一下大数定律,似乎有这个味道了.那是,我们考察了
现在可以给出形式化的定义:
定义 随机变量
我们现在知道了如下情况,只要满足stable的随机变量均可以写成一系列随机变量的和减去常数在除以常数的形式,正好对应最一开始的梯度的形式。也可以说,我们需要寻找的infinitely divisible的随机变量可以转而寻找stable的随机变量了,因为stable随机变量一定是infinitely divisible。
一般的stable随机变量满足什么性质呢?借助Levy-Khinchin表示,可以得出:
定理 随机变量
其中
注:可以补充
最常用的是对称的随机变量,为什么用对称的随机变量呢,说明采样值围绕均值对称,即噪声随机变量关于原点对称,此时特征函数满足条件:
至此,我们给出了另一种可能的梯度噪声的特征函数,特征函数可以确定概率分布
问题三:比较这样推广的噪声模型与原来的高斯分布有什么关系?
首先,取
可以知道,与stable随机变量中
另一个特殊的例子是柯西分布:
我们立刻可以得到对应的柯西分布参数为
注意柯西分布的期望不存在,因此二阶矩,三阶矩等高阶矩均不存在(因为高阶矩存在,低阶矩一定存在,可以将随机变量
但是我们知道柯西分布不存在期望,方差,不能应用传统意义上的中心极限定理,但是柯西随机变量是stable的随机变量,其分布的和满足的分布还是可以写出来。根据stable随机变量的性质,可以考虑将
进一步假定分布的参数
相对高斯分布近似的SGD
而言,两者的不同在哪里呢?主要是尾部,下一批文章将计划讲述两者尾部的不同,以及尾部的主要研究方法。
且听下回分解。
主要参考文献:
[1] Albert N. Shiryaev Pribability-1 GTM 95
[2] Umut Simsekl et al., A Tail-Index Analysis of Stochastic Gradient Noise in Deep Neural Network ICML 2019
最后
以上就是细腻宝贝为你收集整理的深度学习训练中噪声减小吗_深度学习中的噪声-梯度噪声[1]的全部内容,希望文章能够帮你解决深度学习训练中噪声减小吗_深度学习中的噪声-梯度噪声[1]所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复