概述
近期在做一个语音识别及控制的产品,需对接音频数据采集和处理,关于这方面的知识还是比较欠缺和零散的,借此机会,对音频这块的知识进行学习和梳理,仅供自己参考。
1、什么是模拟信号?和数字信号的差别?
其实任何我们可以听见的声音(指人耳可以听到的声音频率在20HZ~20kHz之间的声波,称为音频。)经过音频线或话筒的传输都是一系列的模拟信号。模拟信号是我们可以听见的。而数字信号就是用一堆数字记号(其实只有二进制的1和0)来记录声音,而不是用物理手段来保存信号(用普通磁带录音就是一种物理方式),我们实际上听不到数字信号。
这样我们可以简略地比较一下模拟时代的录音制作与数码时代的区别:模拟时代是把原始信号以物理方式录制到磁带上(当然在录音棚里完成了),然后加工、剪接、修改,最后录制到磁带、LP等广大听众可以欣赏的载体上。这一系列过程全是模拟的,每一步都会损失一些信号,到了听众手里自然是差了好远,更不用说什么HI-FI(高保真)了。
数码时代是第一步就把原始信号录成数码音频资料,然后用硬件设备或各种软件进行加工处理,这个过程与模拟方法相比有无比的优越性,因为它几乎不会有任何损耗。对于机器来说这个过程只是处理一下数字而已,当然丢码的可能性也有,但只要操作合理就不会发生。最后把这堆数字信号传输给数字记录设备如CD等,损耗自然小很多了。
所以说,数码音频是我们保存声音信号,传输声音信号的一种方式,它的特点是信号不容易损失,而模拟信号是我们最后可以听到的东西。
2、数字信号采集及核心参数 [百度百科]
数码录音最关键一步就是要把模拟信号转换为数码信号。就电脑而言是把模拟声音信号录制成为wav文件,这个工作Windows自带的录音机也可以做到,但是它的功能十分有限,不能满足我们的需求,所以我们用其他专业音频软件代替,如Sound Forge等。录制出来的文件就是wav文件,描述wav文件主要有两个指标,一个是采样频率,或称采样率、采率,另一个是采样精度也就是比特率。这是数字音频制作中十分重要的两个概念。
2.1、采样频率
采样频率就是采用一段音频,做为样本,因为wav使用的是数码信号,它是用一堆数字来描述原来的模拟信号,所以它要对原来的模拟信号进行分析,我们知道所有的声音都有其波形,数码信号就是在原有的模拟信号波形上每隔一段时间进行一次“取点”,赋予每一个点以一个数值,这就是“采样”,然后把所有的“点”连起来就可以描述模拟信号了,很明显,在一定时间内取的点越多,描述出来的波形就越精确,这个尺度我们就称为“采样频率”。我们最常用的采样频率是44.1kHz,它的意思是每秒取样44100次。
之所以使用这个数值是因为经过了反复实验(实际上是那个时代才是视频27/1.0001时钟做CD刻录遗留问题),人们发现这个采样频率最合适,低于这个值就会有较明显的损失,而高于这个值人的耳朵已经很难分辨,而且增大了数字音频所占用的空间。一般为了达到“万分精确”,我们还会使用48kHz甚至96kHz的采样频率,实际上,96kHz采样频率和44.1kHz采样频率的区别绝对不会象44.1kHz和22kHz那样区别如此之大, 我们所使用的CD的采样标准就是44.1kHz,目前44.1kHz还是一个最通行的标准,有些人认为96kHz将是未来录音界的趋势。采样频率提高应该是一件好事,但我们真的能听出96kHz采样频率制作的音乐与44.1kHz采样频率制作的音乐的区别吗?不过随着高端音响设备的大众化,我们也许就会在Party时听到更高质量的音乐了。
2.2、比特率
比特率是大家常听说的一个名词,数码录音一般使用16比特、20比特或24比特制作音乐。什么是“比特”?我们知道声音有轻有响,影响声音响度的物理要素是振幅,作为数码录音,必须也要能精确表示乐曲的轻响,所以一定要对波形的振幅有一个精确的描述。“比特(bit)”就是这样一个单位,16比特就是指把波形的振幅划为2^16即65536个等级,根据模拟信号的轻响把它划分到某个等级中去,就可以用数字来表示了。和采样频率一样,比特率越高,越能细致地反映乐曲的轻响变化。20比特就可以产生1048576个等级,表现交响乐这类动态十分大的音乐已经没有什么问题了。刚才提到了一个名词“动态”,它其实指的是一首乐曲最响和最轻的对比能达到多少,我们也常说“动态范围”,单位是dB,而动态范围和我们录音时采用的比特率是紧密结合在一起的,如果我们使用了一个很低的比特率,那么就只有很少的等级可以用来描述音响的强弱,当然就不能听到大幅度的强弱对比了。动态范围和比特率的关系是;比特率每增加1比特,动态范围就增加6dB。所以假如我们使用1比特录音,那么我们的动态范围就只有6dB,这样的音乐是不可能听的。16比特时,动态范围是96dB。这可以满足一般的需求了。20比特时,动态范围是120dB,对比再强烈的交响乐都可以应付自如了,表现音乐的强弱是绰绰有余了。发烧级的录音师还使用24比特,但是和采样精度一样,它不会比20比特有很明显的变化,理论上24比特可以做到144 dB的动态范围,但实际上是很难达到的,因为任何设备都不可避免会产生噪音,至少在现阶段24比特很难达到其预期效果。
3、音频格式
因为本次项目只涉及到WAV格式音频播放,故只详细了解下该音频格式。
WAV:无损,是微软公司开发的一种声音文件格式,它符合 PIFFResource Interchange File Format 文件规范,用于保存WINDOWS平台的音频信息资源,被WINDOWS平台及其应用程序所支持。“*.WAV”格式支持MSADPCM、CCITT A LAW等多种压缩算法,支持多种音频位数、采样频率和声道,标准格式的WAV文件和CD格式一样,也是44.1K的采样频率,速率88K/秒,16位量化位数,看到了吧,WAV格式的声音文件质量和CD相差无几,也是PC机上广为流行的声音文件格式,几乎所有的音频编辑软件都“认识”WAV格式。
5、试听技术
略
最后
以上就是高挑鸵鸟为你收集整理的[Audio] 音频基本属性及概念的全部内容,希望文章能够帮你解决[Audio] 音频基本属性及概念所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复