我是靠谱客的博主 温婉帅哥,最近开发中收集的这篇文章主要介绍语音识别(ASR)论文优选:Icassp 2022 M2MeT方案总结,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。

Summary On The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Grand Challenge

本文为阿里等单位在2022.02.08更新的文章,主要对icassp 2022 M2MeT挑战赛的方案总结​:speaker diarization  and multi-speaker ASR ​。具体的文章链接https://arxiv.org/pdf/2202.03647.pdf


(文章只摘要具体方案的结果,不做详细讲解,该领域的读者看看各种方案也就了解的差不多。另外我对于Speaker diarization也不熟悉)

1 简介

现实的多人会议场景转录的任务是近几年研究的热点,The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Challenge (M2MeT)挑战赛是对该场景提供交流​的平台。本挑战赛主要分为speaker diarization和multi-speaker ASR赛道,使用的数据为120小时的8通道现实会议场景数据AliMeeting 。评价指标分别为Diarization Error Rate (DER) and Character Error Rate (CER) 。

2 方案总结

Speaker diarization基准系统为Kaldi-based diarization system

Multi-speaker ASR基准系统为 single speaker baseline  is ConfomerA​,multiple speakers baseline  is Serialized Output Training (SOT)。基准系统在测试集上的性能分别为table 1和table 2。

​Speaker diarization赛道有14支队伍参赛,其中top8的采用的方案如table 3所示。Multi-speaker ASR赛道的top5的方案如table 4所示​。(其实这些参赛方案的各种技巧组合仅作为参考)

最后

以上就是温婉帅哥为你收集整理的语音识别(ASR)论文优选:Icassp 2022 M2MeT方案总结的全部内容,希望文章能够帮你解决语音识别(ASR)论文优选:Icassp 2022 M2MeT方案总结所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(56)

评论列表共有 0 条评论

立即
投稿
返回
顶部