【Pre-Training】超细节的 BERT/Transformer 知识点1.不考虑多头的原因,self-attention 中词向量不乘 QKV 参数矩阵,会有什么问题?2.为什么 BERT 选择 mask 掉 15% 这个比例的词,可以是其他的比例吗?3.使用 BERT 预训练模型为什么最多只能输入 512 个词,最多只能两个句子合成一句?4.为什么 BERT 在第一句前会加一个 [CLS] 标志?5.Self-Attention 的时间复杂度是怎么计算的?6.Transformer 在
❝知乎:海晨威链接:https://zhuanlan.zhihu.com/p/132554155编辑:阿泽的学习笔记❞随着 NLP 的不断发展,对 BERT/Transformer 相关...