呆萌海燕

文章
3
资源
0
加入时间
3年0月9天

Transformer模型的训练后剪枝方法

最终,针对BERT-base与DistilBERT的结构剪枝,通过本文提出的训练后剪枝方法,在GLUE与SQuAD数据集上,能够实现2x的FLOPS降解、1.56x的推理加速,精度损失低于1%;因此,针对给定的约束条件,通过最小化剪除的Attention heads与FFN Neurons的重要性,可实现剪枝Mask的搜索,搜索算法如下(类似于Post-training量化,仅需少量无标注数据的校准(特征对齐、最小化重建误差等校准方法),通过训练后压缩方法便能获得较好的压缩效果,且。