自然语言处理(NLP)-模型常用技巧:Normalization【Batch Norm、Layer Norm】一、为什么对数据归一化二、数据进行归一化标准化常用的方法
对于NLP中 Mask 的作用(ps:padding mask 和 sequence mask不是官方命名):Padding mask:处理非定长序列,区分padding和非padding部分,如在RNN等模型和Attention机制中的应用等Sequence mask:防止标签泄露,如:Transformer decoder中的mask矩阵,BERT中的[Mask]位,XLNet中的mask矩阵等一、Padding Mask【处理非定长序列】在NLP中,文本一般是不定长的,所以在进行 batc