Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data解决问题工作结果

192 阅读 0 评论 127 点赞

我是靠谱客的博主轻松百合，这篇文章主要介绍Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data解决问题工作结果，现在分享给大家，希望可以做个参考。

文章目录

解决问题
工作
- Transformer models
- 人工合成数据
- 模型预训练及微调
- 集成
- 自右向左的重排序
结果

解决问题

基于从拼写检查器提取出的困惑集，无监督地生成人工错误数据集，来解决数据缺少的问题。

工作

Transformer models

使用Transformer模型，做一些小的修改（大量正则化防止过拟合、指数平滑、提高每个batch的size、整个模型的参数都被与悬链）

人工合成数据

使用拼写检查器来生成困惑集（困惑集就是经常相互混淆的单词集），生成困惑集时利用了编辑距离和语音距离的加权平均值。

生成步骤为：

对每个句子，采样均值0.15标准差0.2的正太分布，作为错误的概率（和开发集的错误概率相似），然后乘以句子的长度最后四舍五入，得到要修改的单词数。要修改的单词使用一致采样获取。
修改的操作有以下四种：用困惑集中的单词替换（概率0.7）、删除（0.1）、在后面插入一个随机的单词（0.1）、和后一个单词互换（0.1）
对10%的单词的字符使用上面的修改操作，概率同之。这一步的原因是是模型具有纠正拼写错误的能力

模型预训练及微调

首先使用合成的错误句子和真正的句子对进行预训练，然后用领域内的有错误标注的数据进行微调。微调策略是保留学习率、优化器参数、和历史的网络权重。

集成

由相互独立的sequence-to-sequence模型和语言模型集成。

自右向左的重排序

这篇文章使用了重排序的技术。首先，使用标准的自左向右的模型集得到多个结果，并用语言模型筛选出的n个最好的结果，然后给这些句子对重新打分，打分依据是自右向左的模型，并利用打分重排序。

结果

在BEA19任务上，这个GEC系统取得了最好的结果，在restricted和low-resource任务上分别取得了69.47和64.24的 $F_{0.5}$ 分数。

最后

以上就是轻松百合最近收集整理的关于Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data解决问题工作结果的全部内容，更多相关Neural内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：NLP论文笔记
浏览次数：192 次浏览
发布日期：2024-05-23 22:40:02
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_7_o_26_f2_12__7_gz.html

Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data解决问题工作结果

文章目录

解决问题

工作

Transformer models

人工合成数据

模型预训练及微调

集成

自右向左的重排序

结果

最后

评论列表共有 0 条评论

发表评论取消回复

Neural Grammatical Error Correction Systems with Unsupervised Pre-training on Synthetic Data解决问题工作结果

文章目录

解决问题

工作

Transformer models

人工合成数据

模型预训练及微调

集成

自右向左的重排序

结果

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复