层标准化详解(Layer Normalization)为什么Batch Normaization难以应用于RNNs?如何对RNNs网络进行标准化?Torch中的LayerNorm、BatchNorm1D和BatchNorm2D对比
层标准化可以很有效地稳定动态神经网络的隐藏状态。训练和测试处理方式一致;为什么Batch Normaization难以应用于RNNs?Batch Normalization使用mini-batch的均值和标准差对深度神经网络的隐藏层输入附加标准化操作,可有效地提升训练速度。对于前向神经网络应用Batch Norm,使用简单SGD优化器,训练速度也能有较大提升。BN的效果受制于batch的大小,小batch未必能取得预期效果;对于前向神经网络可以很直接地应用BN,因为其每一层具有固定的神经