语音识别(ASR)论文优选：Icassp 2022 M2MeT方案总结

103 阅读 0 评论 68 点赞

我是靠谱客的博主温婉帅哥，最近开发中收集的这篇文章主要介绍语音识别(ASR)论文优选：Icassp 2022 M2MeT方案总结，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

声明：平时看些文章做些笔记分享出来，文章中难免存在错误的地方，还望大家海涵。搜集一些资料，方便查阅学习：http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html，语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。如有转载，请注明出处。欢迎关注微信公众号：低调奋进。

Summary On The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Grand Challenge

本文为阿里等单位在2022.02.08更新的文章，主要对icassp 2022 M2MeT挑战赛的方案总结：speaker diarization and multi-speaker ASR 。具体的文章链接https://arxiv.org/pdf/2202.03647.pdf

（文章只摘要具体方案的结果，不做详细讲解，该领域的读者看看各种方案也就了解的差不多。另外我对于Speaker diarization也不熟悉）

1 简介

现实的多人会议场景转录的任务是近几年研究的热点，The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Challenge (M2MeT）挑战赛是对该场景提供交流的平台。本挑战赛主要分为speaker diarization和multi-speaker ASR赛道，使用的数据为120小时的8通道现实会议场景数据AliMeeting 。评价指标分别为Diarization Error Rate (DER) and Character Error Rate (CER) 。

2 方案总结

Speaker diarization基准系统为Kaldi-based diarization system

Multi-speaker ASR基准系统为 single speaker baseline is ConfomerA，multiple speakers baseline is Serialized Output Training (SOT)。基准系统在测试集上的性能分别为table 1和table 2。