参数初始化Weight Initialization
参数初始化Weight Initialization全零初始化:无法进行模型训练随机初始化:使用小的随机数(高斯分布,零均值,1e-2标准差)初始化小网络可以,对于深度网络有问题。网络输出数据分布的方差会随着神经元的个数而改变。Xavier初始化为保证前向传播和反向传播时每一层的方差一致。根据每层的输入个数和输出个数来决定参数随机初始化的分布范围。高斯分布的权重初始化为:高斯分布的随机数乘上2nin+nout\frac{\sqrt{2}}{\sqrt{n_{in}+n_{out}}}nin