开朗盼望

文章
5
资源
0
加入时间
2年10月21天

【NLP】BERT常见问题汇总1.讲讲bert的结构2.为什么BERT选择mask掉15%这个比例的词,可以是其他的比例吗?3.使用BERT预训练模型为什么最多只能输入512个词,最多只能两个句子合成一句?4.为什么BERT在第一句前会加一个[CLS]标志?5.BERT非线性的来源在哪里?6.BERT的三个Embedding直接相加会对语义有影响吗?7.什么任务适合bert,什么任务不适合?8.为什么 BERT 比 ELMo 效果好?9.ELMo 和 BERT 的区别是什么?

本篇文章是在之前文章《【NLP】BERT模型解析记录》的基础上,主要记录BERT模型的相关细节问题,并以QA形式表述。文中会标注相关出处,如遇未注明或出现错误,请告知。如遇侵权,请告知删除~1.讲讲bert的结构bert结构大体上可分为输入、N层transformer的encoder和输出三部分组成。输入由token embedding、segment embedding和position embedding三部分相加组成;N层transformer的encoder,在bert_base中N=1