模型参数初始化

337 阅读 0 评论 223 点赞

我是靠谱客的博主动人期待，这篇文章主要介绍模型参数初始化，现在分享给大家，希望可以做个参考。

在一般的教程中，推导初始化方法的思想是尽量让输入输出具有同样的均值和方差，通常会假设输入是均值为0、方差为1的随机向量，然后试图让输出的均值为0、方差为1。不过，笔者认为这其实是没有必要的，而且对于某些非负的激活函数来说，根本就做不到均值为0。事实上，只要每层的输入输出的二阶（原点）矩能稳定在适当的范围内，那么在反向传播的时候，模型每层的梯度也都保持在原点的一定范围中，不会爆炸也不会消失，所以这个模型基本上就可以稳定训练。

各种Normalization方法也是防止梯度无法学习的，如Batch Normalization、Instance Normalization、Layer Normalization等，这类方法直接计算当前数据的均值方差来将输出结果标准化，而不用事先估计积分，有时候我们也称其为“归一化”。这三种标准化方法大体上都是类似的，除了Batch Normalization多了一步滑动平均预测用的均值方差外，它们只不过是标准化的维度不一样，比如NLP尤其是Transformer模型用得比较多就是Layer Normalization。

苏剑林. (Aug. 17, 2021). 《浅谈Transformer的初始化、参数化与标准化》[Blog post]. Retrieved from https://kexue.fm/archives/8620