概述
音素是语言识别领域的最小单元,文本到音素的转换是TTS任务(文本转语音)中重要的步骤之一,最近用了下python包(phonemizer),实践了下,觉得还挺有用的,因此记录一下过程。
(1) 下载源码,https://github.com/bootphon/phonemizer
(2) 进行源码的编译和查看,发现其调用的是festival and espeak/espeak-ng 两个系统的东西,即相当于提供了一个接口调用的东西。上述两种音素转换工具的区别如下:Festival provides US English phonemization with syllable tokenization, espeak endows multiple languages but without syllable boundaries.,可见espeak支持更多的语言。
(3) 利用源码进行调试,编译,简化其输入和输出,即可进行调试。
实验一:festival调用:en-->us,输入hello,得到的是美语的音素。
实验二:espeak调用:en-->us,输入hello,得到的是美语的音素。
实验三:espeak调用:fr-->fr,输入法语的“你好世界”,得到的是法语的音素。
实验三:espeak调用:spanish,输入西班牙语的“你好”,得到的是西班牙语的音素。
最后
以上就是动听啤酒为你收集整理的多语言文本到音素转换工具phonemizer实践的全部内容,希望文章能够帮你解决多语言文本到音素转换工具phonemizer实践所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复