音频基础知识(一)为什么高品质音频采样率＞ =44.1Khz

200 阅读 0 评论 132 点赞

我是靠谱客的博主时尚鼠标，这篇文章主要介绍音频基础知识(一)为什么高品质音频采样率＞ =44.1Khz，现在分享给大家，希望可以做个参考。

声音是波

声音是由物体振动而产生的,声音是一种压力波，当演奏乐器、拍打一扇门或者敲击桌面时，它们的振动都会引起空气有节奏的振动，使周围的空气产生疏密变化，形成疏密相间的纵波

声波的三要素
- 声波的三要素是频率、振幅和波形，频率代表音阶的高低，振幅代表响度，波形代表音色。

==频率==越高，波长就越短。低频声响的波长则较长，所以其可以更容易地绕过障碍物，因此能量衰减就小，声音就会传得远，反之则会得到完全相反的结论。
- ==响度==其实就是能量大小的反映，用不同的力度敲击桌子，声音的大小势必也会不同。在生活中，分贝常用于描述响度的大小。声音超过一定的分贝，人类的耳朵就会受不了。
- ==音色==其实也不难理解，在同样的音调（频率）和响度（振幅）下，钢琴和小提琴的声音听起来是完全不相同的，因为它们的音色不同。波的形状决定了其所代表声音的音色，钢琴和小提琴的音色不同就是因为它们的介质所产生的波形不同。

人类耳朵的听力有一个频率范围，大约是20Hz～20kHz

声音的传播介质
- 声音的传播介质很广，它可以通过空气、液体和固体进行传播；而且介质不同，传播的速度也不同，比如，
  
  声音在空气中的传播速度为340m/s，在蒸馏水中的传播速度为1497m/s，而在铁棒中的传播速度则可以高达5200m/s；不过，声音在真空中是无法传播的。

模拟音频
- （Analogous Audio），用连续的电流或电压表示的音频信号，在时间和振幅上是连续。在过去记录声音记录的都是模拟音频，比如机械录音（以留声机、机械唱片为代表）、光学录音（以电影胶片为代表）、磁性录音（以磁带录音为代表）等模拟录音方式。

数字音频
为了将模拟信号数字化，我们需要对模拟信号进行采样、量化、编码。

通过采样和量化技术获得的离散性（数字化）音频数据。计算机内部处理的是二进制数据，处理的都是数字音频，所以需要将模拟音频通过采样、量化转换成有限个数字表示的离散序列 （即实现音频数字化）。

采样

对于高质量的音频信号，其频率范围（人耳能够听到的频率范围）是20Hz～20kHz，所以采样频率一般为44.1kHz，这样就可以保证采样声音达到20kHz也能被数字化，从而使得经过数字化处理之后，人耳听到的声音质量不会被降低。而所谓的44.1kHz就是代表1秒会采样44100次。

量化

量化是指在幅度轴上对信号进行数字化，比如用16比特的二进制信号来表示声音的一个采样。

表示一个样本的二进制的位数，即样本的比特数。量化是将经过采样得到的离散数据转换成二进制数的过程，量化深度表示每个采样点用多少比特表示，在计算机中音频的量化深度一般为4、8、16、32位（bit）等。例如：量化深度为8bit时,每个采样点可以表示256个不同的量化值，而量化深度为16bit时,每个采样点可以表示65536个不同的量化值。量化深度的大小影响到声音的质量，显然，位数越多，量化后的波形越接近原始波形，声音的质量越高，而需要的存储空间也越多

编码

就是按照一定的格式记录采样和量化后的数字数据，比如顺序存储或压缩存储。

PCM
音频的裸数据格式就是脉冲编码调制（Pulse Code Modulation，PCM）数据。是对连续变化的模拟信号进行抽样、量化和编码产生的数字信号。描述一段PCM数据一般需要以下几个概念：==量化格式（sampleFormat）==、==采样率（sampleRate）==、==声道数（channel）==。

比特率（它用于衡量音频数据单位时间内的容量大小）

采样率 X 量化格式 X 声道数

麦克风是如何采集声音的
麦克风里面有一层碳膜，非常薄而且十分敏感。声音其实是一种纵波，会压缩空气也会压缩这层碳膜，碳膜在受到挤压时也会发出振动，在碳膜的下方就是一个电极，碳膜在振动的时候会接触电极，接触时间的长短和频率与声波的振动幅度和频率有关，这样就完成了声音信号到电信号的转换。之后再经过放大电路处理，就可以实施后面的采样量化处理了。
模拟信号 -> 输入设备（传递电压值）-> 声卡（经过采样跟量化（即设置声音大小等各种值））-> 磁盘（文件） -> 声卡 -> 输出设备 -> 模拟信号

声卡的作用

是实现声波/数字信号相互转换的一种硬件。声卡的基本功能是把来自话筒、磁带、光盘的原始声音信号加以转换，输出到耳机、扬声器、扩音机、录音机等声响设备，或通过音乐设备数字接口(MIDI)使乐器发出美妙的声音。

资料领取直通车：音视频开发&流媒体服务器资料文档+视频教程

音视频学习直通车：【免费】FFmpeg/WebRTC/RTMP/NDK/Android音视频流媒体高级开发

音频编码
编码是对元数据进行压缩存储，压缩算法包括有损压缩和无损压缩。

无损压缩是指解压后的数据可以完全复原。在常用的压缩格式中，用得较多的是有损压缩，

有损压缩是指解压后的数据不能完全复原，会丢失一部分信息，压缩比越小，丢失的信息就越多，信号还原后的失真就会越大。

根据不同的应用场景（包括存储设备、传输网络环境、播放设备等），可以选用不同的压缩编码算法，如PCM、WAV、AAC、MP3、Ogg等。

<u>压缩编码的原理实际上是压缩掉冗余信号，冗余信号是指不能被人耳感知到的信号</u>

WAV编码

而WAV编码的一种实现（有多种实现方式，但是都不会进行压缩操作）就是在PCM数据格式的前面加上44字节，分别用来描述PCM的采样率、声道数、数据格式等信息。

MP3编码

MP3具有不错的压缩比，使用LAME编码（MP3编码格式的一种实现）的中高码率的MP3文件，听感上非常接近源WAV文件，当然在不同的应用场景下，应该调整合适的参数以达到最好的效果。

特点：音质在128Kbit/s以上表现还不错，压缩比比较高，大量软件和硬件都支持，兼容性好。

适用场合：高比特率下对兼容性有要求的音乐欣赏。

AAC编码

AAC是新一代的音频有损压缩技术，它通过一些附加的编码技术（比如PS、SBR等），衍生出了LC-AAC、HE-AAC、HE-AAC v2三种主要的编码格式

特点：在小于128Kbit/s的码率下表现优异，并且多用于视频中的音频编码。

适用场合：128Kbit/s以下的音频编码，多用于视频中音频轨的编码。

Ogg编码

Ogg是一种非常有潜力的编码，在各种码率下都有比较优秀的表现，尤其是在中低码率场景下。Ogg除了音质好之外，还是完全免费的，这为Ogg获得更多的支持打好了基础。Ogg有着非常出色的算法，可以用更小的码率达到更好的音质，

特点：<u>可以用比MP3更小的码率实现比MP3更好的音质</u>，高中低码率下均有良好的表现，兼容性不够好，流媒体特性不支持。

适用场合：语音聊天的音频消息场景。

MPEG

（Moving Picture Experts Group，动态图像专家组）是ISO（International Standardization Organization，国际标准化组织）与IEC（International Electrotechnical Commission，国际电工委员会）于1988年成立的专门针对运动图像和语音压缩制定国际标准的组织。

音频帧

Acc一个音频帧包含1024个采样点，MP3一个音频帧包含1152个采样点。

音频帧的播放时间

音频帧的播放时长 = 一个音频帧对应的采样点个数 / 采样频率

音轨

在音序器软件中看到的一条一条的平行“轨道”。每条音轨分别定义了该条音轨的属性，如音轨的音色，音色库，通道数，输入/输出端口，音量等。

当使用音序器时，一条音轨对应于音乐的一个声部，它把 MIDI 或者音频数据记录在特定的时间位置。每一音轨可以定义为一种乐器的演奏。所有的音序器都可以允许多音轨操作，这就意味着一首歌所有的音轨，无论是 MIDI 还是音频都能同时播放。

声道

指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号，所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。

从双声道开始，声音在录制过程中被分配到两个独立的声道，从而达到了很好的声音定位效果。这种技术在音乐欣赏中显得尤为有用，听众可以清晰地分辨出各种乐器来自的方向，从而使音乐更富想象力，更加接近于临场感受。

记录声音时，如果每次生成一个声波数据，称为单声道；每次生成两个声波数据，称为双声道。使用双声道记录声音，能够在一定程度上再现声音的方位，反映人耳的听觉特性。

采样率

音频采样率是指录音设备在一秒钟内对声音信号的采样次数，采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上，采样频率一般共分为11025Hz、22050Hz、24000Hz、44100Hz、48000Hz五个等级

频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。