使用MindStudio进行deberta模型训练
在 BERT 中,输入层中的每个 token 都是用一个向量表示的,这个向量是 token 嵌入和句子嵌入以及位置嵌入的简单求和,而在 DeBERTa 中,每个 token 都是用两个向量表示的,分别对内容和位置进行编码,根据 token 的内容和相对位置,利用分散矩阵计算 token 之间的注意权值。Disentangled attention:比如 deep 和 learning 这两个词,当它们相连出现在一起的时候,其之间的依赖性会更强,而当它们出现在不同句子里,其之间依赖性就不强。