概述
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。
Summary On The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Grand Challenge
本文为阿里等单位在2022.02.08更新的文章,主要对icassp 2022 M2MeT挑战赛的方案总结:speaker diarization and multi-speaker ASR 。具体的文章链接https://arxiv.org/pdf/2202.03647.pdf
(文章只摘要具体方案的结果,不做详细讲解,该领域的读者看看各种方案也就了解的差不多。另外我对于Speaker diarization也不熟悉)
1 简介
现实的多人会议场景转录的任务是近几年研究的热点,The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Challenge (M2MeT)挑战赛是对该场景提供交流的平台。本挑战赛主要分为speaker diarization和multi-speaker ASR赛道,使用的数据为120小时的8通道现实会议场景数据AliMeeting 。评价指标分别为Diarization Error Rate (DER) and Character Error Rate (CER) 。
2 方案总结
Speaker diarization基准系统为Kaldi-based diarization system
Multi-speaker ASR基准系统为 single speaker baseline is ConfomerA,multiple speakers baseline is Serialized Output Training (SOT)。基准系统在测试集上的性能分别为table 1和table 2。
Speaker diarization赛道有14支队伍参赛,其中top8的采用的方案如table 3所示。Multi-speaker ASR赛道的top5的方案如table 4所示。(其实这些参赛方案的各种技巧组合仅作为参考)
最后
以上就是温婉帅哥为你收集整理的语音识别(ASR)论文优选:Icassp 2022 M2MeT方案总结的全部内容,希望文章能够帮你解决语音识别(ASR)论文优选:Icassp 2022 M2MeT方案总结所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复