概述
文章目录
语音识别常用噪声库和混响库
- OPEN SLR17(加性噪声)
这个就是非常出名的MUSAN噪声库,总共约11G,目录包含三个分类:
├── README
├── music
├── noise
├── speech
music中是音乐噪声;
noise包含各种背景噪声;
speech是一些说话人语音;
- 源openslr链接:http://www.openslr.org/resources/17/musan.tar.gz
- 国内源链接:https://openslr.magicdatatech.com/resources/17/musan.tar.gz
(用第二个链接会快一些;)
- OPEN SLR28(混响噪声)
这个混响包含了real和simulated,包含不同房间大小的
- 源openslr链接:http://www.openslr.org/resources/28/rirs_noises.zip
- 国内源链接:https://openslr.magicdatatech.com/resources/28/rirs_noises.zip
参考链接
- https://zhuanlan.zhihu.com/p/94273132
- https://www.zhihu.com/question/278918708/answer/631873989
PS:
- 可以使用torchaudio.sox_effects改变音速和音量,对语音进行进一步增强;
- 可以将这两个库作成lmdb库,在语音相关模型训练时进行在线加噪声和混响,可以参考wekws项目中的add_noise/add_reverb实现。
最后
以上就是缥缈绿草为你收集整理的语音识别-语音增强-加噪声混响的全部内容,希望文章能够帮你解决语音识别-语音增强-加噪声混响所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复