2022年3月语音合成（TTS)和语音识别(ASR)论文月报

296 阅读 0 评论 196 点赞

我是靠谱客的博主鲜艳砖头，这篇文章主要介绍2022年3月语音合成（TTS)和语音识别(ASR)论文月报，现在分享给大家，希望可以做个参考。

论文统计每月更新一次，主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出，但不影响统计。统计过程难免存在疏漏，因此统计结果仅供参考。所有文章语音合成领域统计列表请访问http://yqli.tech/page/tts_paper.html，语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。开源语音数据查询 http://yqli.tech/page/data.html。

如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。读者有什么建议可以直接给我发消息，我将不断修改该统计。如有转载，请注明出处。欢迎关注微信公众号：低调奋进。

在正文之前，我先介绍一下开源数据整理网页，便于同行查询数据。感兴趣的读者请访问http://yqli.tech/page/data.html。

（我在三月份读的文章也少，编写解码器刚上线测试。我在整理3月份的文章，发现几篇较好的文章，将会在接下来时间进行分享）

一语音合成篇

表一给出具体分类说明。2022年3月的语音合成相关的文章有56篇，比1月份和2月份都差不多增长1倍，详情参见图1。表二和图2是语音合成的具体方向的文章情况，由此可知，声学模型、声码器、声音转换和歌唱合成是主要热点。另外这期的前端工作有三篇文章，主要是tn和多音字消歧的工作。

表一语音合成分类说明

分类	说明
前端	多音字，韵律，g2p等等。
声学模型	语言特征转声学特征，attention工作，多说话人以及双重学习
声码器	波形生成
个性化	少数据，脏数据应用等自适应
多语言	多语言模型
歌唱合成	歌唱和音乐合成
情感	风格和情感
多模态	主要搜集talking head文章
声音转换	基于GAN方案和特征解耦方案
S2S	speech-to-speech
其它	基于EEG合成，开源数据，MOS评测以及语音合成的应用

图1 语音合成论文总数

表二语音合成论文分布情况

	1月	2月	3月
前端	2	0	3
声学模型	4	5	17
声码器	1	5	7
个性化	1	2	4
多语言	1	1	0
歌唱合成	5	3	5
情感风格	2	2	1
多模态	4	3	2
声音转换	4	2	11
s2s	1	0	2
其它	2	0	4

图2 语音合成论文分布情况柱状图

语音合成的文章列表请访问http://yqli.tech/page/tts_paper.html

2022.03月份的文章

二语音识别篇

语音识别的文章分类参照表三说明。图3是语音识别文章总数，跟语音合成一样，3月份的文章数量是2月份和1月份的1倍。语音识别的研究方向具体情况参见表4和图4。另外对于会议场景、访谈场景的工作研究有增加的趋势。

表三语音识别分类说明

分类	说明
general	包括传统、混合语音识别，以及对asr的优化
ctc	ctc优化
rnn-t	rnn-t的优化
aed	aed优化
dataset	开源数据库
data aug	数据增广
lm	语言模型研究
multilingual	多语音系统以及code-switch
personal	少数据量自适应以及个性化ASR
rescoring	多种模型联合打分
unsupervised	无监督或者自监督学习
accent ,dialect	口音和方言
other	其它方向研究，包括系统评价标准等等
robust	鲁棒性
speaker diarization	speaker diarization
multichannel	多通道

图3 语音识别文章数量统计（单位：篇）

表4 语音识别研究方向分布情况

	1月	2月	3月
general	12	10	13
ctc	1	0	2
rnn-t	3	1	2
aed	1	1	1
dataset	3	0	3
data augmentation	1	1	1
lm	2	2	4
multilingual	2	1	2
personal	0	7	3
rescoring	1	1	2
unsupervised	2	3	17
accent	1	0	0
multichannel	0	4	1
robust	0	0	5
other	6	13	22
speaker diarization	0	3	4