BORT 阅读笔记 《Optimal Subarchitecture Extraction For BERT》用神经网路搜索的方法寻找一个最优的BERT:最终寻到的最优BERT:其中D是transformer encoder层数A是attention headsH是hidden sizeI是intermediate layer size对比了 普通预训练 和 基于蒸馏的预训练(下面第二第三列):... 自然语言处理 2023-09-23 49 点赞 0 评论 74 浏览