音频分析相关概念

113 阅读 0 评论 75 点赞

我是靠谱客的博主热情盼望，这篇文章主要介绍音频分析相关概念，现在分享给大家，希望可以做个参考。

1 音频参数：采样频率、声道、采样精度、比特率、编码方式
以Foobar2000音乐播放器界面（图1）为例说明，左下角视图为波形，右下为频谱，右上为音乐文件常规属性（此界面是为叙述方便而定义，不代表软件本身属性）。

音频分析中用到的一些基本概念

人耳听到的声音，无论多么复杂，都可在时域表示为一道模拟、连续的波形（图1左下所示）。所谓“复杂”实际上是多个声音信号波形叠加的结果，可经过分解得到若干不同频率的正弦波，因而其经过傅里叶变换在频域可以以频率为横轴、幅度为纵轴表示，不同频率上的不同幅度表明构成声音信号的频率分量的强弱（图1右下所示）。这种特点是音频分析的理论基础。
要想把模拟、连续的音乐信号储存为数字音频，须将此信号通过模/数转换，对波形曲线采样，以样本值的序列来表示声音信号。一般而言，采样时有以下几个需要考虑的参数：
（1）采样频率（图1右上第3行）：表示每秒钟所取得的声音数据样本数，以Hz为单位。人声频率一般在300Hz—3.4kHz，人耳能听到的音乐频率一般在20Hz—20kHz。根据奈奎斯特采样定理，若要使信号无失真保留，采样频率须高于两倍信号带宽。采样频率越高，音质越好，但是数据量越大。
（2）声道（图1右上第4行）：一般只分单声道和双声道，双声道即是立体声。双声道效果较好，但数据量是单声道的两倍。
（3）采样精度（图1右上第5行）：表示每个数据样本所用的二进制位数，常用8-bit和16-bit。即每个样本的数值都是固定长度的整数，以便于存储，精度越大，量化误差越小，恢复出的音质越好，同样，数据量也越大。
（4）比特率（图1右上第6行）：表示单位时间播放音频的比特数量，相当于数字带宽消耗量。它与采样频率、采样精度、编码方式、压缩方式有关，不是一个独立的参数，在同一编码、压缩方式下，若采样频率、精度确定，则比特率确定。但它可以直观反映每秒所使用的空间（如硬盘）大小，比特率越高，音质越好，数据量越大。
（5）编码方式（图1右上第7行）：表示音频编码的方式，常见的如MP3、WMA、PCM（文件名后缀“.wav”）等。MP3、WMA为有损类编码，PCM为无损类编码，同等音质下后者占用空间较大。

现在假设某段乐曲有30秒，8-bit采样，频率为44100Hz，双声道，PCM编码，则样本总数为2646000个。

2 音乐特征：音量、音高、音色，帧长、帧重叠、帧距、帧率

如上所述，可通过绘制波形的方式研究音乐特征。从图2的波形上看，音乐具有如下特征：
（1）长期特征（一段乐曲）：波形变化大，周期无规律；
（2）短期特征（一帧）：波形变化小，周期有规律。
长期特征表明了各首不同乐曲之间的宏观差异，通过这种差异我们可以将音乐分为若干类；短期特征表明了一帧音乐的基本特征，通过这个特征我们可以将大段音乐文件分帧，用特征值来表示一帧音乐，从而减少进行后续处理时的数据量。