概述
标题:《MultiWOZ 2.4: A Multi-Domain Task-Oriented Dialogue Dataset with Essential Annotation Corrections to Improve State Tracking Evaluation》
作者:伦敦大学
时间:2021年4月
中文:《MultiWOZ2.4版本,通过改良标注提升DST》
内容:作者关注2.1版本的标注中噪声非常多导致各种DST模型在测试集上joint accuracy总是卡在55%以下的问题,决心花大力气对数据集进行纠正。具体地,作者以2.1版本的测试、验证集为底做了refine的新版本。训练集部分的标注保持不动以鼓励鲁棒的、 noise-resilient的模型训练。作者详细复盘了他们修正标签的过程,讲了一些有意思的想法。最后使用若干个baselines模型在新老测试集/验证集上进行了评测。
【按:我很早就梦想把MultiWOZ数据集里的脏标签清洗干净,这回终于有人替我把这活干了】
【按:文章中大部分描述是老生常谈不太重要的,本note就略过了,只记录作者新的提法。】
1 Introduction
作者的主要目的: improve the correctness and fairness of model evaluation
所以作者只修正测试验证部分,训练集部分的标注保持不动。毕竟,一个noisy的训练集对于训练鲁棒的、 noise-resilient的模型还是有它的价值的,也就是所谓noisy label learning问题。
2 Annotation Refinement
指导思想: it is impractical to ensure that the state annotations obtained via a crowdsourcing process are consistent and noise-free。
Annotation Error Types
作者识别了10种标注错误/标注不一致(inconsistent annotations)。分别是:
错误value;缺失value;多余value;复数value(multiple-values);别称value(Typo);时间处理型value;正确value错误slot(Slot mismatch);不完备value;延迟value;可有可无value(私以为只有这个是核心)。
错误种类及对应例子如图1:
这里我讲一下我的理解:
1、前3种错误不必赘述,就是单纯的标注人员搞错了。后面几种错误则涉及填槽规则不统一的问题,等于是annotationors必须在开始标数据前划定一个基准。
2、复数value很有意思,展开来讲可以细分为“and”逻辑关系与“or”逻辑关系,MultiWOZ里用竖线(|)来表达or关系。
3、别称value、不完备value、正确value错误slot:这仨其实就算法设计而言不是个大问题,可以靠统一标注规则来解决。
4、时间处理型value,图1给的例子是把“十点钟之后“这个用户inform的信息如何填槽的问题。转化为“10:00”就是直接copy输入;转化为"10:15"则是系统做一个加减15分钟的时间处理。
5、延迟value:其实,我私以为这不是一个大问题,就是单纯的标注人员搞错了
6、可有可无value:核心错误。这指的是value在对话话语文本中显式出现,但是在需不需要填槽上存在争议的情况。as different annotators have different opinions on whether to annotate these slots or not。这些values一般都是系统所inform的,例如respond to previous user requests或provide supplementary information。这些value对更新query constraints没有任何帮助,所以我们把它们都删掉了。只有一个是意外,那就是name-related slots,毕竟它和锁定目标实体有关,这样的slot是需要标注的。
Annotation Refinement Procedure:
1、参考carryover的思想,关注每一个turn中的turn-active slots,即直接由当前回合的对话文本决定,不继承自previous turns的slots。作者统计发现这种slots的数量是平均每轮1.16、1.18个。
2、value normalization:(1)对于name-related slot values,因为会有各种别名或变体,作者选取了整个dataset里频率最高的那个作为official name(正名),然后把全部变体都标准化为正名。(2)对于time-related slot values,全部更新成24:00 format。
【按:然后作者发现value-change ratio最高的就是name-related slot。。。】
3 Benchmark Evaluation
作者选取了8种模型来做评测
【按:这才半年呀,最前沿的模型我就都不认识了。。。幸喜SOM-DST依然是SOTA,呵呵。。】
遗留问题:
1、需要把STAR、SAVN、PIN看一看
《Parallel interactive networks for multidomain dialogue state generation.》
《Slot selfattentive dialogue state tracking》
《Slot attention with value normalization for multi-domain dialogue state tracking》
2、noisy label learning问题的相关论文
《A survey of label-noise representation learning: Past, present and future》 2020
《Learning from noisy labels with deep neural networks: A survey.》
最后
以上就是落后灯泡为你收集整理的MultiWOZ 2.4最新版本:通过改良标注提升DST1 Introduction2 Annotation Refinement3 Benchmark Evaluation的全部内容,希望文章能够帮你解决MultiWOZ 2.4最新版本:通过改良标注提升DST1 Introduction2 Annotation Refinement3 Benchmark Evaluation所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复