音频处理入门笔记

559 阅读 0 评论 369 点赞

我是靠谱客的博主强健时光，这篇文章主要介绍音频处理入门笔记，现在分享给大家，希望可以做个参考。

ES: Echo Suppresion

EES: Enhanced Echo Suppresion

AEC: Acoustic Echo Cancellation 声学回声消除。在一般的VOIP软件或视频会议系统中，假设我们只有A和B两个人在通话，首先，A的声音传给B，B然后用喇叭放出来，而这时B的MIC呢则会采集到喇叭放出来的声音，然后传回给A，如果这个传输的过程中时延足够大，A就会听到一个和自己刚才说过的话一样的声音，这就是回声，声学回声消除器的作用就是在B端对B采集到的声音进行处理，把采集到声音包含的A的声音去掉再传给A，这样，A就不会听到自己说过的话了。就是说，在B端，接收到A说的话以后，要把这些话音数据传给回声消除器做参考，然后再传给声卡，声卡再放出来，这有一段延时，这时，B再采集，然后传给回声消除器，与那个参考数据比较，从采集到的数据中把频域和参考数据相同的部分消除掉。

NS: Noise Suppression 噪音抑制

NLP: Nonlinear Procession 去除残留的回声和背景噪声

NC: Noise Control

NR: Noise Reduction 降噪

CC: Clarity Control 清晰度控制

VAD: Voice Activity Detection 静音检测。静音检测（VAD）将检测被编码的音频数据是语音还是静音或背景噪声

DRC: Dynamic Range Control

AGC: Automatic Gain Control 自动增益控制。不同的设备，录音效果会有较大幅度的变动，自动增益控制（AGC）就是用来处理这种现象的。它提供了一种调整信号为参考音量的方法。这对VOIP（voice over IP）是非常有用的，因为它不需要再手动去调整麦克风增益。第二个好处是，将麦克风增益设置为保守(低)级别，可有效避免削波。

VBR: Variable Bit-Rate

CBR: Constant Bit-Rate

ABR: Average bit-rate

DTX: Discontinuous Transmission 非连续传输。非连续性传输（DTX）是静音检测（VAD）/变比特率（VBR）操作的额外选项，它能够在背景噪声固定时，完全的停止传输。

CNG: Comfort Noise Generator 舒适噪音生成。在非变比特率的情况下，检测非语音周期并对用足够的比特数重新生成的背景噪声进行编码。这个叫“舒适噪声生成（CNG）”。

音频加速器（Audio Accelerator）：即音频处理单元，有些厂家又叫APU(Audio Processing Unit)，好比计算机机的cpu，决定着声卡的音频处理能力。完全意义上的音频加速器由DSP(Digital Singnal Processor)和I/O控制器构成。I/O控制器即是输入/输出控制器，针对声卡的输入/输出进行控制。如果说一块声卡没有DSP，而只是一块I/O卡（比如绝大多数主板上自带的AC97声卡）那它所有的数据处理就只有交由CPU来完成。这将意味着增加CPU的负担，和低下的性能。

Codec：Codec一词由Coder和Decoder两个英文词组合而成，表示为多媒体数字信号解码器，专门负责模拟信号到数字信号的转换（ADC）以及数字信号到模拟信号的转换（DAC）工作。计算机声卡处理的信号全是数字信号，而声卡接收到的或者最终输出的信号大部份是模拟信号。从外办输入的信号，如CD、话筒等必须经过a/d转换后才能由声卡进行处理，然后又经过d/a转换后最终送入杨声器，被我们的耳朵所听到。因此Codec的质量直接决定着进出声卡的信号质量。

声卡的工作流程：MIDI、数字输入、模拟输入等信号--->通各种接口输入--->由晶震产生采样频率给Codec进行模/数转换--->交给DSP+I/O器进行信号处理和分配--->再由DAC或Codec进行数/模转换--->最后由放大电路放大--->输出至模拟输出接口

AC97（Audio Codec 97）：一种规范。

Amplitude（增益/衰减）:对于一个音频信号进行放大（正增益），或者衰减（负增益），是DSP一个最基本的功能。而这些操作实质上就是对电流脉冲的增强和减小。在电路中，可以通过电阻实现这项功能。

Filter（滤波器）：滤波器也是DSP的基础功能，所谓滤波器，就是过滤掉符合特定条件的声音，比如常见的频率滤波器。常见的频率滤波器包括低通滤波器（Low pass filter），高通滤波器(High pass filter)，带通滤波器(band pass filter)等。他们都是用来过滤掉特定的频率，比如低通滤波器。
低通滤波器，顾名思义就是让低频信号通过，而其他信号则被过滤掉，一般音响系统中习惯使用低通滤波器分离出单独的超重低音通道来，从而组成X.1系统。
高通滤波器，就是允许高频信号通过，而将其他信号拒之门外。
带通滤波器比较有意思，它会让需要的频段顺利通过，而阻止不需要的频段。
陷波滤波器（band reject filter）像一个倒置的带通滤波器，它会阻止需要的频段，而让不需要的频段顺利通过。
滤波器对于DSP的重要意义在于能够分离出不同的频段，从而进行相关的操作。

震荡器：是一个产生波形的设备，它能够发出规则的或者循环的正弦波、方波、三角波和锯齿波。而这些波形拥有不同的用途，比如正弦波可以当作激励来使用。因此在音频数据中添加不同种类的波，就可以制造出各种绚丽的效果来，比如镶边等。

Delay（延时）：所谓的延时，就是沿着时间轴移动音频数据，从而使得声音听起来要延后一些，在DSP中实现这项功能也是非常简单的。

ADSR（音色包络）：震荡器产生波形后，如果不加以控制，则这些波形将会一直震荡下去，这当然不是我们需要的。因此，我们需要给波形加上起止的控制，这就是ADSR包络了。A代表Attack，指的是声音从开始发声到最大振幅的过程；D代表Decay，指的是声音从最大振幅开始衰减的一段；S指的是Sustain，指的是声音衰减到一定位置维持住的过程；R代表Release，指的是停止发声后到声音消失的过程。有了ADSR，我们就能够控制一个波形的起止位置，从而实现我们想要的效果。

Gate门限：Gate应该算是计算机算法中的逻辑术语了。所谓门，就是按照一定的条件处理数据，符合条件的在门的一边，不符合条件的在门的另一边。门在DSP中主要用作按照条件对音频数据进行分离。

EQ：被称为均衡(Equalizer)，是DSP必备的高档功能之一。EQ基本作用是通过对声音某一个或多个频段进行增益或衰减，达到调整音色的目的。当然，EQ还有一个显著的功能，降噪。因此对于声音的整体音色有着很大的影响。
EQ通过将声音中各频率的组成泛音等级加以修改，专为某一类音乐进行优化，增强人们的感觉。常见包括：正常、摇滚、流行、舞曲、古典、柔和、爵士、金属、重低音和自定义。
EQ通常包括如下参数：F(requency)，频率――这是用于设定你要进行调整的频率点用的参数；G(ain)，增益――用于调整在你设定好的F值上进行增益或衰减的参数；Q(uantize)――用于设定你要进行增益或衰减的频段“宽度”。要注意的一点是：当你设定的Q值越小的时候，你所处理的频段就越宽，而当你设定的Q值越大的时候，你所处理的频段就越窄。
从控制的方式来说，EQ有图形EQ和参量EQ两种。

SRC：就是Sample Rate Convertor采样频率转换器，intel AC'97规范约定了声卡需要经过这样一个处理过程，即将所有信号重新转换成一个统一的采样率输出。SRC如果进行了非整数倍的转换的话，比如44100->48000，会有较大的噪声或者谐波出现，这些噪声因转换器的质量高低、算法好坏而定，不优秀的算法会比较严重的影响听感。既然SRC是一个可能破坏音质的过程，为什么会有这么一个产物呢？前面就说过，AC'97是为了节省成本而订，SRC的结果可以为声卡省下一颗Crystal。SRC一般都通过软件运算转换，这样受驱动版本的影响非常之大，例如Live!系列，SRC品质最好的是Windows Server2003 自带的驱动，也有使用硬件SRC的，例如：CS4630音频加速器。硬件SRC的品质往往大大优于软件的SRC，SRC品质的好坏的重要性甚至比Codec的档次更重要。

Crystal：中文名就是石英晶体振荡器或者简称晶振。常见的声卡都支持44.1kHz和48kHz的信号输入。

参考：

1、Speex手册----编解码介绍

2、AC 97