[Audio] 音频基本属性及概念

356 阅读 0 评论 235 点赞

我是靠谱客的博主高挑鸵鸟，这篇文章主要介绍[Audio] 音频基本属性及概念，现在分享给大家，希望可以做个参考。

近期在做一个语音识别及控制的产品，需对接音频数据采集和处理，关于这方面的知识还是比较欠缺和零散的，借此机会，对音频这块的知识进行学习和梳理，仅供自己参考。

关于常见音频文件格式的特点如下：

要在计算机内播放或是处理音频文件，也就是要对声音文件进行数、模转换，这个过程同样由采样和量化构成，人耳所能听到的声音，最低的频率是从20Hz起一直到最高频率20KHZ，20KHz以上人耳是听不到的，因此音频的最大带宽是20KHZ，故而采样速率需要介于40~50KHZ之间，而且对每个样本需要更多的量化比特数。音频数字化的标准是每个样本16位(16bit，即96dB)的信噪比，采用线性脉冲编码调制PCM，每一量化步长都具有相等的长度。在音频文件的制作中，正是采用这一标准。

1、什么是模拟信号？和数字信号的差别？

其实任何我们可以听见的声音(指人耳可以听到的声音频率在20HZ~20kHz之间的声波，称为音频。)经过音频线或话筒的传输都是一系列的模拟信号。模拟信号是我们可以听见的。而数字信号就是用一堆数字记号(其实只有二进制的1和0)来记录声音，而不是用物理手段来保存信号（用普通磁带录音就是一种物理方式），我们实际上听不到数字信号。

这样我们可以简略地比较一下模拟时代的录音制作与数码时代的区别：模拟时代是把原始信号以物理方式录制到磁带上（当然在录音棚里完成了），然后加工、剪接、修改，最后录制到磁带、LP等广大听众可以欣赏的载体上。这一系列过程全是模拟的，每一步都会损失一些信号，到了听众手里自然是差了好远，更不用说什么HI-FI(高保真)了。

数码时代是第一步就把原始信号录成数码音频资料，然后用硬件设备或各种软件进行加工处理，这个过程与模拟方法相比有无比的优越性，因为它几乎不会有任何损耗。对于机器来说这个过程只是处理一下数字而已，当然丢码的可能性也有，但只要操作合理就不会发生。最后把这堆数字信号传输给数字记录设备如CD等，损耗自然小很多了。

所以说，数码音频是我们保存声音信号，传输声音信号的一种方式，它的特点是信号不容易损失，而模拟信号是我们最后可以听到的东西。

2、数字信号采集及核心参数 [百度百科]

数码录音最关键一步就是要把模拟信号转换为数码信号。就电脑而言是把模拟声音信号录制成为wav文件，这个工作Windows自带的录音机也可以做到，但是它的功能十分有限，不能满足我们的需求，所以我们用其他专业音频软件代替，如Sound Forge等。录制出来的文件就是wav文件，描述wav文件主要有两个指标，一个是采样频率，或称采样率、采率，另一个是采样精度也就是比特率。这是数字音频制作中十分重要的两个概念。

2.1、采样频率

采样频率就是采用一段音频，做为样本，因为wav使用的是数码信号，它是用一堆数字来描述原来的模拟信号，所以它要对原来的模拟信号进行分析，我们知道所有的声音都有其波形，数码信号就是在原有的模拟信号波形上每隔一段时间进行一次“取点”，赋予每一个点以一个数值，这就是“采样”，然后把所有的“点”连起来就可以描述模拟信号了，很明显，在一定时间内取的点越多，描述出来的波形就越精确，这个尺度我们就称为“采样频率”。我们最常用的采样频率是44.1kHz，它的意思是每秒取样44100次。

之所以使用这个数值是因为经过了反复实验（实际上是那个时代才是视频27/1.0001时钟做CD刻录遗留问题），人们发现这个采样频率最合适，低于这个值就会有较明显的损失，而高于这个值人的耳朵已经很难分辨，而且增大了数字音频所占用的空间。一般为了达到“万分精确”，我们还会使用48kHz甚至96kHz的采样频率，实际上，96kHz采样频率和44.1kHz采样频率的区别绝对不会象44.1kHz和22kHz那样区别如此之大，我们所使用的CD的采样标准就是44.1kHz，目前44.1kHz还是一个最通行的标准，有些人认为96kHz将是未来录音界的趋势。采样频率提高应该是一件好事，但我们真的能听出96kHz采样频率制作的音乐与44.1kHz采样频率制作的音乐的区别吗？不过随着高端音响设备的大众化，我们也许就会在Party时听到更高质量的音乐了。

2.2、比特率

比特率是大家常听说的一个名词，数码录音一般使用16比特、20比特或24比特制作音乐。什么是“比特”？我们知道声音有轻有响，影响声音响度的物理要素是振幅，作为数码录音，必须也要能精确表示乐曲的轻响，所以一定要对波形的振幅有一个精确的描述。“比特(bit)”就是这样一个单位，16比特就是指把波形的振幅划为2^16即65536个等级，根据模拟信号的轻响把它划分到某个等级中去，就可以用数字来表示了。和采样频率一样，比特率越高，越能细致地反映乐曲的轻响变化。20比特就可以产生1048576个等级，表现交响乐这类动态十分大的音乐已经没有什么问题了。刚才提到了一个名词“动态”，它其实指的是一首乐曲最响和最轻的对比能达到多少，我们也常说“动态范围”，单位是dB，而动态范围和我们录音时采用的比特率是紧密结合在一起的，如果我们使用了一个很低的比特率，那么就只有很少的等级可以用来描述音响的强弱，当然就不能听到大幅度的强弱对比了。动态范围和比特率的关系是；比特率每增加1比特，动态范围就增加6dB。所以假如我们使用1比特录音，那么我们的动态范围就只有6dB，这样的音乐是不可能听的。16比特时，动态范围是96dB。这可以满足一般的需求了。20比特时，动态范围是120dB，对比再强烈的交响乐都可以应付自如了，表现音乐的强弱是绰绰有余了。发烧级的录音师还使用24比特，但是和采样精度一样，它不会比20比特有很明显的变化，理论上24比特可以做到144 dB的动态范围，但实际上是很难达到的，因为任何设备都不可避免会产生噪音，至少在现阶段24比特很难达到其预期效果。

3、音频格式

因为本次项目只涉及到WAV格式音频播放，故只详细了解下该音频格式。

WAV：无损，是微软公司开发的一种声音文件格式，它符合 PIFFResource Interchange File Format 文件规范，用于保存WINDOWS平台的音频信息资源，被WINDOWS平台及其应用程序所支持。“*.WAV”格式支持MSADPCM、CCITT A LAW等多种压缩算法，支持多种音频位数、采样频率和声道，标准格式的WAV文件和CD格式一样，也是44.1K的采样频率，速率88K/秒，16位量化位数，看到了吧，WAV格式的声音文件质量和CD相差无几，也是PC机上广为流行的声音文件格式，几乎所有的音频编辑软件都“认识”WAV格式。

这里顺便提一下由苹果公司开发的AIFF（Audio Interchange File Format）格式和为UNIX系统开发的AU格式，它们都和和WAV非常相像，在大多数的音频编辑软件中也都支持它们这几种常见的音乐格式。

4、音频处理

4.1、音频媒体的数字化处理

随着计算机技术的发展，特别是海量存储设备和大容量内存在PC机上的实现，对音频媒体进行数字化处理便成为可能。数字化处理的核心是对音频信息的采样，通过对采集到的样本进行加工，达成各种效果，这是音频媒体数字化处理的基本含义。

4.2、音频媒体的基本处理

基本的音频数字化处理包括以下几种：

不同采样率、频率、通道数之间的变换和转换。其中变换只是简单地将其视为另一种格式，而转换通过重采样来进行，其中还可以根据需要采用插值算法以补偿失真。

针对音频数据本身进行的各种变换，如淡入、淡出、音量调节等。

通过数字滤波算法进行的变换，如高通、低通滤波器。

音频媒体的三维化处理

长期以来，计算机的研究者们一直低估了声音对人类在信息处理中的作用。当虚拟技术不断发展之时，人们就不再满足单调平面的声音，而更催向于具有空间感的三维声音效果。听觉通道可以与视觉通道同时工作，所以声音的三维化处理不仅可以表达出声音的空间信息，而且与视觉信息的多通道的结合可以创造出极为逼真的虚拟空间，这在未来的多媒体系统中是极为重要的。这也是在媒体处理方面的重要措施。

人类感知声源的位置的最基本的理论是双工理论，这种理论基于两种因素：两耳间声音的到达时间差和两耳间声音的强度差。时间差是由于距离的原因造成，当声音从正面传来，距离相等，所以没有时间差，但若偏右三度则到达右耳的时间就要比左耳约少三十微秒，而正是这三十微秒，使得我们辨别出了声源的位置。强度差是由于信号的衰减造成，信号的衰减是因为距离而自然产生的，或是因为人的头部遮挡，使声音衰减，产生了强度的差别，使得靠近声源一侧的耳朵听到的声音强度要大于另一耳。

基于双工理论，同样地，只要把一个普通的双声道音频在两个声道之间进行相互混合，便可以使普通双声道声音听起来具有三维音场的效果。这涉及到以下有关音场的两个概念：音场的宽度和深度。

音场的宽度利用时间差的原理完成，由于是对普通立体声音频进行扩展，所以音源的位置始终在音场的中间不变，这样就简化了我们的工作。要处理的就只有把两个声道的声音进行适当的延时和强度减弱后相互混合。由于这样的扩展是有局限性的，即延时不能太长，否则就会变为回音。

音场的深度利用强度差的原理完成，具体的表现形式是回声．音场越深，则回音的延时就越长．所以在回音的设置中应至少提供三个参数：回音的衰减率、回音的深度和回音之间的延时。同时，还应该提供用于设置另一通道混进来的声音深度的多少的选项

5、试听技术

略