进一步聊聊weight initialization初始化为0预训练random initializationXavier initializationHe initializationBatch Normalization Layer参考
深度学习模型训练的过程本质是对weight(即参数W)进行更新,这需要每个参数有相应的初始值。有人可能会说:“参数初始化有什么难点?直接将所有weight初始化为0或者初始化为随机数!” 对一些简单的机器学习模型,或当optimization function是convex function时,这些简单的方法确实有效。然而对于深度学习而言,非线性函数被疯狂叠加,这便是一个非凸函数,如何选择参数...