深度学习以及机器学习面试常见问题以及答案
2)BN的实现:即BN论文中伪代码的步骤(1)计算mini-Batch内m个实例获得的m个激活x求得的均值E(x)并除以求得的方差Var(x)。(2)对某个神经元对应的原始的激活x=WU+B进行减均值除方差操作,此处x为本该进入激活函数的x,式中U为上一层神经元输出,W权重,B偏置。1)BN的作用:对于每个隐层神经元,把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布,使得非线性变换函数的输入值落入对输入比较敏感的区域,以此避免梯度消失问题。