MultiWOZ 2.4最新版本：通过改良标注提升DST1 Introduction2 Annotation Refinement3 Benchmark Evaluation

71 阅读 0 评论 47 点赞

我是靠谱客的博主落后灯泡，最近开发中收集的这篇文章主要介绍MultiWOZ 2.4最新版本：通过改良标注提升DST1 Introduction2 Annotation Refinement3 Benchmark Evaluation，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

标题：《MultiWOZ 2.4: A Multi-Domain Task-Oriented Dialogue Dataset with Essential Annotation Corrections to Improve State Tracking Evaluation》

作者：伦敦大学
时间：2021年4月
中文：《MultiWOZ2.4版本，通过改良标注提升DST》

内容：作者关注2.1版本的标注中噪声非常多导致各种DST模型在测试集上joint accuracy总是卡在55%以下的问题，决心花大力气对数据集进行纠正。具体地，作者以2.1版本的测试、验证集为底做了refine的新版本。训练集部分的标注保持不动以鼓励鲁棒的、 noise-resilient的模型训练。作者详细复盘了他们修正标签的过程，讲了一些有意思的想法。最后使用若干个baselines模型在新老测试集/验证集上进行了评测。

【按：我很早就梦想把MultiWOZ数据集里的脏标签清洗干净，这回终于有人替我把这活干了】
【按：文章中大部分描述是老生常谈不太重要的，本note就略过了，只记录作者新的提法。】

1 Introduction

作者的主要目的： improve the correctness and fairness of model evaluation
所以作者只修正测试验证部分，训练集部分的标注保持不动。毕竟，一个noisy的训练集对于训练鲁棒的、 noise-resilient的模型还是有它的价值的，也就是所谓noisy label learning问题。

2 Annotation Refinement

指导思想： it is impractical to ensure that the state annotations obtained via a crowdsourcing process are consistent and noise-free。

Annotation Error Types

作者识别了10种标注错误/标注不一致（inconsistent annotations)。分别是：
错误value；缺失value；多余value；复数value（multiple-values）；别称value（Typo）；时间处理型value；正确value错误slot（Slot mismatch)；不完备value；延迟value；可有可无value（私以为只有这个是核心）。
错误种类及对应例子如图1：
在这里插入图片描述

这里我讲一下我的理解：
1、前3种错误不必赘述，就是单纯的标注人员搞错了。后面几种错误则涉及填槽规则不统一的问题，等于是annotationors必须在开始标数据前划定一个基准。
2、复数value很有意思，展开来讲可以细分为“and”逻辑关系与“or”逻辑关系，MultiWOZ里用竖线（|）来表达or关系。
3、别称value、不完备value、正确value错误slot：这仨其实就算法设计而言不是个大问题，可以靠统一标注规则来解决。
4、时间处理型value，图1给的例子是把“十点钟之后“这个用户inform的信息如何填槽的问题。转化为“10:00”就是直接copy输入；转化为"10:15"则是系统做一个加减15分钟的时间处理。
5、延迟value：其实，我私以为这不是一个大问题，就是单纯的标注人员搞错了
6、可有可无value：核心错误。这指的是value在对话话语文本中显式出现，但是在需不需要填槽上存在争议的情况。as different annotators have different opinions on whether to annotate these slots or not。这些values一般都是系统所inform的，例如respond to previous user requests或provide supplementary information。这些value对更新query constraints没有任何帮助，所以我们把它们都删掉了。只有一个是意外，那就是name-related slots，毕竟它和锁定目标实体有关，这样的slot是需要标注的。

Annotation Refinement Procedure：

1、参考carryover的思想，关注每一个turn中的turn-active slots，即直接由当前回合的对话文本决定，不继承自previous turns的slots。作者统计发现这种slots的数量是平均每轮1.16、1.18个。
2、value normalization：（1）对于name-related slot values，因为会有各种别名或变体，作者选取了整个dataset里频率最高的那个作为official name（正名），然后把全部变体都标准化为正名。（2）对于time-related slot values，全部更新成24:00 format。
【按：然后作者发现value-change ratio最高的就是name-related slot。。。】

3 Benchmark Evaluation

作者选取了8种模型来做评测
【按：这才半年呀，最前沿的模型我就都不认识了。。。幸喜SOM-DST依然是SOTA，呵呵。。】
在这里插入图片描述

遗留问题：

1、需要把STAR、SAVN、PIN看一看
《Parallel interactive networks for multidomain dialogue state generation.》
《Slot selfattentive dialogue state tracking》
《Slot attention with value normalization for multi-domain dialogue state tracking》
2、noisy label learning问题的相关论文
《A survey of label-noise representation learning: Past, present and future》 2020
《Learning from noisy labels with deep neural networks: A survey.》