Baidu Expressive TTS《Multi-reference Tacotron by Intercross Training for Style Disentangling...》
今天照例总结回顾一下看过的一篇论文,来自百度2019年的《Multi-reference Tacotron by Intercross Training for Style Disentangling,Transfer and Control in Speech Synthesis》首先说一下当前Expressive TTS的研究背景问题,其一就是过于复杂的风格表示像感情和韵律信息等无法有一个较为客观的衡量标准,也就无法进行明确的监督训练。另一个就是当前的基础模型解耦出的特征信息独立性不强,或者