我是靠谱客的博主 缥缈绿草,最近开发中收集的这篇文章主要介绍语音识别-语音增强-加噪声混响,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

文章目录


语音识别常用噪声库和混响库

  1. OPEN SLR17(加性噪声)

这个就是非常出名的MUSAN噪声库,总共约11G,目录包含三个分类:
├── README
├── music
├── noise
├── speech

music中是音乐噪声;
noise包含各种背景噪声;
speech是一些说话人语音;

  • 源openslr链接:http://www.openslr.org/resources/17/musan.tar.gz
  • 国内源链接:https://openslr.magicdatatech.com/resources/17/musan.tar.gz
    (用第二个链接会快一些;)
  1. OPEN SLR28(混响噪声)

这个混响包含了real和simulated,包含不同房间大小的

  • 源openslr链接:http://www.openslr.org/resources/28/rirs_noises.zip
  • 国内源链接:https://openslr.magicdatatech.com/resources/28/rirs_noises.zip

参考链接

  • https://zhuanlan.zhihu.com/p/94273132
  • https://www.zhihu.com/question/278918708/answer/631873989

PS:

  • 可以使用torchaudio.sox_effects改变音速和音量,对语音进行进一步增强;
  • 可以将这两个库作成lmdb库,在语音相关模型训练时进行在线加噪声和混响,可以参考wekws项目中的add_noise/add_reverb实现。

最后

以上就是缥缈绿草为你收集整理的语音识别-语音增强-加噪声混响的全部内容,希望文章能够帮你解决语音识别-语音增强-加噪声混响所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(46)

评论列表共有 0 条评论

立即
投稿
返回
顶部