中文语法纠错全国大赛获奖分享:基于多轮机制的中文语法纠错数据分析纠错策略实验结果技术落地方案总结展望
由该赛道的评测指标可知,本次比赛不仅考察模型的纠错能力,还考察模型正确区分句子对错的能力;在实验分析的过程中,我们发现模型对多字词的缺失和句子不同位置的错误的纠错能力不同,并且当前的数据集未能覆盖绝大多数的错误,因此存在OOV的问题。在推理阶段,为了在输出的标签空间中搜索出一条最优的解码路径,我们利用局部路径解码方法对局部的移动编辑操作确定一条和为0的相对路径,并通过自适应阈值的方法对不同编辑操作、不同的词性和词频确定不同的修改接受阈值,由此提高模型的纠正准确率并解决模型的过度纠正等问题。