我是靠谱客的博主 陶醉跳跳糖,这篇文章主要介绍Python 音频的数据扩充,你知道怎么用吗?,现在分享给大家,希望可以做个参考。

经典的深度学习网络AlexNet使用数据扩充(Data Augmentation)的方式扩大数据集,取得较好的分类效果。在深度学习的图像领域中,通过平移、 翻转、加噪等方法进行数据扩充。但是,在音频(Audio)领域中,如何进行数据扩充呢?

音频的数据扩充,主要有以下四种方式:

  • 音频剪裁(Clip)
  • 音频旋转(Roll)
  • 音频调音(Tune)
  • 音频加噪(Noise)

音频解析基于librosa音频库;矩阵操作基于scipy和numpy科学计算库。

以下是Python的实现方式:

音频剪裁

复制代码
1
2
3
4
5
6
7
import librosa from scipy.io import wavfile y, sr = librosa.load("../data/love_illusion.mp3") # 读取音频 print y.shape, sr wavfile.write("../data/love_illusion_20s.mp3", sr, y[20 * sr:40 * sr]) # 写入音频

音频旋转

复制代码
1
2
3
4
5
6
7
8
9
import librosa import numpy as np from scipy.io import wavfile y, sr = librosa.load("../data/raw/love_illusion_20s.mp3") # 读取音频 y = np.roll(y, sr*10) print y.shape, sr wavfile.write("../data/raw/xxx_roll.mp3", sr, y) # 写入音频

音频调音,注:cv库的resize函数含有插值功能。

复制代码
1
2
3
4
5
6
7
8
9
10
11
12
import cv2 import librosa from scipy.io import wavfile y, sr = librosa.load("../data/raw/love_illusion_20s.mp3") # 读取音频 ly = len(y) y_tune = cv2.resize(y, (1, int(len(y) * 1.2))).squeeze() lc = len(y_tune) - ly y_tune = y_tune[int(lc / 2):int(lc / 2) + ly] print y.shape, sr wavfile.write("../data/raw/xxx_tune.mp3", sr, y_tune) # 写入音频

音频加噪,注:在添加随机噪声时,保留0值,否则刺耳难忍!

复制代码
1
2
3
4
5
6
7
8
9
10
import librosa from scipy.io import wavfile import numpy as np y, sr = librosa.load("../data/raw/love_illusion_20s.mp3") # 读取音频 wn = np.random.randn(len(y)) y = np.where(y != 0.0, y + 0.02 * wn, 0.0) # 噪声不要添加到0上! print y.shape, sr wavfile.write("../data/raw/love_illusion_20s_w.mp3", sr, y) # 写入音频

小编推荐一个学python的学习qun 740,3222,34
无论你是大牛还是小白,是想转行还是想入行都可以来了解一起进步一起学习!裙内有开发工具,很多干货和技术资料分享!

素材来源网络:侵删

最后

以上就是陶醉跳跳糖最近收集整理的关于Python 音频的数据扩充,你知道怎么用吗?的全部内容,更多相关Python内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(80)

评论列表共有 0 条评论

立即
投稿
返回
顶部