概述
文章目录
- 解决问题
- 工作
- Transformer models
- 人工合成数据
- 模型预训练及微调
- 集成
- 自右向左的重排序
- 结果
解决问题
基于从拼写检查器提取出的困惑集,无监督地生成人工错误数据集,来解决数据缺少的问题。
工作
Transformer models
使用Transformer模型,做一些小的修改(大量正则化防止过拟合、指数平滑、提高每个batch的size、整个模型的参数都被与悬链)
人工合成数据
使用拼写检查器来生成困惑集(困惑集就是经常相互混淆的单词集),生成困惑集时利用了编辑距离和语音距离的加权平均值。
生成步骤为:
- 对每个句子,采样均值0.15标准差0.2的正太分布,作为错误的概率(和开发集的错误概率相似),然后乘以句子的长度最后四舍五入,得到要修改的单词数。要修改的单词使用一致采样获取。
- 修改的操作有以下四种:用困惑集中的单词替换(概率0.7)、删除(0.1)、在后面插入一个随机的单词(0.1)、和后一个单词互换(0.1)
- 对10%的单词的字符使用上面的修改操作,概率同之。这一步的原因是是模型具有纠正拼写错误的能力
模型预训练及微调
首先使用合成的错误句子和真正的句子对进行预训练,然后用领域内的有错误标注的数据进行微调。微调策略是保留学习率、优化器参数、和历史的网络权重。
集成
由相互独立的sequence-to-sequence模型和语言模型集成。
自右向左的重排序
这篇文章使用了重排序的技术。首先,使用标准的自左向右的模型集得到多个结果,并用语言模型筛选出的n个最好的结果,然后给这些句子对重新打分,打分依据是自右向左的模型,并利用打分重排序。
结果
在BEA19任务上,这个GEC系统取得了最好的结果,在restricted和low-resource任务上分别取得了69.47和64.24的 F 0.5 F_{0.5} F0.5分数。
最后
以上就是轻松百合为你收集整理的Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data解决问题工作结果的全部内容,希望文章能够帮你解决Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data解决问题工作结果所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复