回音消除技术概述

331 阅读 0 评论 219 点赞

我是靠谱客的博主洁净小伙，这篇文章主要介绍回音消除技术概述，现在分享给大家，希望可以做个参考。

来源 http://av.imaschina.com

一、回音消除技术的基础概念
     回音消除已经替代了早期的回音抑制，回音抑制最早始于20世纪50年代，在卫星通讯环境中用来控制由于比较长的信号延时而听到的回音。最早的回音消除理论在20世纪60年代在AT&T贝尔实验室中发展起来，但是直到20世纪70年代末，由于受到电子行业的技术能力限制，商用回音消除产品一直没有取得太大的发展。
     随着DSP的飞速发展使得回音消除产品变得更小和更具有性价比。在20世纪90年代，回音消除器不再作为一个独立的设备，而是第一次被集成于语音网关中(加拿大北电公司DMS-250)。这个整合使得回音消除直接内置于语音网关中，意味着回音消除器可以在通话过程中非常可靠地被开启或者关闭，在语音通讯和数据通信中区分不同的干线组取得所需要的信号。
     1、回声与延时的关系
     回声和延时是两个不同的概念，延时不会加重或者改变回声的量值。声音有一个遮掩效应，例如我们在山谷里那么清楚的听到回声的原因是因为声音的传递时间长，声音反射回来的时间就长，超过1秒甚至2秒，声音的传递时间长了，声音的遮掩效应会失去，这样人的耳朵就会感觉到听到这个回声，回声是一直存在的，专门的研究机构做过专门的测试，声音的传递小于20毫秒左右的时候，遮掩效果发挥作用，人耳一般听不出来，超过20毫秒以后遮掩效应开始衰减，超过50毫秒，声音的遮掩效应就基本消失了，只要有微弱的回声人耳就能听得到。
     2、回声和数字延时及语音压缩技术的关系
     数字延时技术就是把线性的信号，语音信号从喇叭或者电话中传出去前，经过数字信号采样处理会延迟一段时间，就使得回音回来延迟的更长，所以我们能够听到。而语言压缩技术是对一段数字信号进行采样后压缩，然后再把这个压缩信号送出去，这一段数字信号一般是30毫秒、40毫秒左右，语音数据经过拿出来做处理，处理之后，再送出去，这样就增加了40毫秒的延时，导致的结果就是有回音回来被听到。例如我们现在的电话网络都采用用数字交换机，而以前都是模拟交换机，送出的都是模拟信号，这个信号是以光速传递的，所以在模拟交换机时代，打本地电话和长途电话感觉不到有回音，只有通过卫星打国际电话的时候听到有回音，因为延迟时间就变长了，那么打本地电话，电信号以光的速度传递，只有几毫秒，我们就听不见感觉不到回音的存在，而现在的电话网络全都用数字式的，它把电信号变成数字信号，而数字信号的处理，不是采一个数字就送出去，它是采集一段信号，可能是20毫秒40毫秒的信号进来了，把它处理一下，然后送出去，这样的数字处理的效率很高，把信号先压缩以后，再送出去，结果就是效率更高，本来一根线只能送一路电话，现在可能送10个电话，但是提高效率的同时，增加了延时作为结果，这是就导致回音的出现，例如我们打手机有回音，也是这种原因。

二、AEC(Adaptive Echo Control)回声消除回音器的原理
1、回声消除原理
回音的产生既复杂也简单。一般喇叭信号出来声音它会传递到麦克风，这个传递过程本身从技术上讲就有一个传递函数，传递本身就已经发生了一些变化，在传递过程中，高频和低频的传递系数是不一样的，通常低频传递的效率更高，高频传递的效率低一点。麦克风跟喇叭的位置靠的越近，声音传递的时间越短，稍微离的远一点，那么延迟的时间会多一点，即使声音直接传过去，信号就已经有时间延时了，麦克风位置的改变，回音也随之改变，传递的声音随着距离位置的改变，它传递的时间也发生改变，接触到信号也就改变了，但声音除了这个直接信号以外，声音在空间中它是往各个方向传递的，它会碰到墙壁、碰到天花板反射回来，然后反射到麦克风，有的反射到桌面然后到麦克风，各个情况都存在，所以这是一个很复杂的问题，所有的信号最终的结果是叠加在一起的，叠加的结果就是有的信号被增强了，有的信号被减弱了，各种各样的都有，然后墙壁对声音信号的反射也不一样，高频低频都不一样，所以结果是一个复杂的所有叠加的结果，有的早有的晚，有的强有的弱，朗谷做回音消除呢，就是把总的传递函数效果算出来，那么并不是简单的说两个信号一样，这个你算出来的回音信号，跟送出去的参考信号，送到喇叭去的信号并不一样，它已经经过了一些传递改变了，那么可能有些已经延迟了100个毫秒，这是总的结果，回音消除的原理就是信号出去，然后麦克风收的信号肯定是这些信号各种各样的直接间接的传递，反射回来的信号叠加到一起，我们把这些传递函数计算出来，叠加结果计算出来，这样就能得到一个回音信号和麦克风信号，在理想条件下如果计算出来的和麦克风信号一样，就可以把回声消除掉，如果计算出来的有误差，那么就不可能消除干净，这就是回声消除的原理。回声消除技术后面还有很复杂的数学问题，最难的地方是变量太多，即回音模型的改变回音的叠加的结果都要计算出来。另外，还有采用回声抑制进行回声处理的方法——非线性的过度，就是两边同时说话的时候，它分辨不出那个是回音信号时，就剪切掉。这种处理不当，也可以说是单工。因为线性做的不够好，还有回音时，就多切掉一点，称之为回声抑制。因此回声消除和回音抑制是不同的。

2、回声消除技术关键性技术指标
     (1)ITU-T的G.167
     这是国际电信联盟有一个标准，这个标准要求任何回声消除必须要做到降低45分贝以上，但是达到这个标准不是最好的，因为人还能听到这个回声，这个是最基本的标准。原则上麦克风信号收的信号有一个电平，这个电平我们可以用分贝来标示，如果这个信号的电平比如说是－3dB，如果你消除了30dB，那么结果就变成了－30Db,因为10分贝能量上是10倍，20个分贝就是100倍，人耳能听到的声音范围值大约是100万倍，所以人耳朵能听到能量范围值是60分贝左右，回声处理要消除60分贝以上人耳才听不出来，如果只消除30或者40分贝，能量降低到千分之一，万分之一，虽然能量弱了很多，但还是能听到。
     (2)回声消除的带宽
     窄带模式频率： 300Hz—3．4kHz
     宽带频率模式： 50Hz—7kHz(应用厂家ploycom/Cisco/skype)
     超宽带模式：50Hz—14kHz，一般称HD高清音频模式
     全音域模式：20Hz—20kHz

三、AFC(Adaptive Feedback Control)自适应声反馈处理技术
     1、原理
     现场扩声环境产生声反馈的问题是麦克风的信号到喇叭，从喇叭出来再到麦克风就造成了放大回路，形成声反馈。AFC技术就是让从喇叭出来的信号回到麦克风，然后麦克风接收的喇叭信号给它滤掉和降低，AFC技术将此信号衰减１０分贝，这样就把它从喇叭出来的信号衰减了，这样从放大器出来回到喇叭，就产生啸叫，但是发言人说话的声音，经过麦克风以后照原样送出去，原样又放大出来，这就是我们提高传声增益，但是又完成声反馈消除的最基本原理。AFC首先把模拟信号变成数字信号，然后采样滤波，只把从喇叭出来的信号回到麦克风的这一部分滤波滤、降低，然后再放大。
     2、特点
     (1)AFC无须调整
     朗谷的AFC技术不需要调整，麦克风移动、房间改变、湿度改变、温度改变、气压改变统统没有关系，不受任何影响。
     (2)AFC原音重放，声音无改变
     AFC对说话人的信号、频率等都不去改变，也没有陷波器在里面，所以AFC不影响系统的音质，而目前市场上大多数的声反馈处理技术都是采用陷波器的抑制技术，陷波器不管是什么信号，不管是从喇叭出来的信号，还是人讲话的声音，都是把某些频率陷进去，凹下去了，频率响应应该是平的，原来是什么声音，重放出来还是什么声音，而陷波器的技术原理就是陷下去了，把这个频率衰减下来，这就是陷波器的原理，也是目前用声反馈抑制技术进行信号处理劣化音质的问题所在，一只两只话筒还可以，当多只话筒尤其是多只界面式话筒应用的时候，传统的声反馈抑制技术是无法胜任的， AFC技术可以完美解决这个会议室声学的棘手难题。

四、ANC(Adaptive Noise Control)自适应背景降噪技术
ANC技术保证清晰干净的语音信号传递，其技术原理是进行信号分析模型和信号的频谱分析，这样我们就能分析背景噪声响应的强度和频谱分布，然后根据这个模型就能设计一个滤波器，当有人讲话的时候，同时进行信号分析，朗谷ANC就能分析出讲话者的频谱，那么根据这些背景噪音和讲话者的频谱，这个滤波器根据两个信号的对比实时的改变，让讲话者声音频谱通过，让背景噪声的频谱滤掉，这样的结果就是把背景噪声滤掉了，当然不是完全的滤掉，比如说降低15到20个分贝，就很明显可以感觉体验到背景降噪的效果。

五、AGC(Automatic Gain Control)自动增益控制技术
AGC自动增益控制也称为智能电平控制(ILC)技术，自动增益控制提供语音电平调节能力，它把减弱了的和加强了的信号映射到一个用户定义的最理想电平。不像普通的产品，在这些产品中只增加减弱信号的增益，而不理会增强了的信号， AGC是双向的，并且不仅仅是一个固定电平的增益或衰减。一些增益控制技术使用一个固定的失真——补偿类衰减来减少对大声语音的修剪，但把这种失真加到了所有信号之上，这使轻柔的语音更难以听清楚。AGC具有区分加强了的信号和轻柔信号的能力，避免了这种问题，同时保持住对话声调的连贯和让话音易于听清楚。

为了维持听感上的舒适性，对可以应用到AGC和NC的增益和衰减有一个限制，最大值是12dB。例如，假如输入的话音电平为-18dBu，并且AGC设定为-12dB，AGC将会把语音放大6dB来维持一致的设定语音电平值（-12dB）。当噪声出现时，NC会根据引入噪声的电平把语音放大到AGC设定电平之上，最多放大额外的6dB（AGC＋NC＝<12dB）。如果输入的语音加强得太多，最大可能的NC增益会太大，并可能导致语音失真。为了补救这种失真，AGC提供了一个防止饱和电平，它设定了一个-6dBu的默认最大语音电平。这就限制了NC能够增大的增益量，因此能保证语音总是可懂并且听起来舒适。
此外，必须注意避免让NC放大电平很低的回声或背景噪声，这些杂音可能会由呼叫的远端泄漏进来。为了防止这种放大，NC必须能够从语音中分辩出这些信号，并只放大话音而不放大任何低电平背景噪声或回声。
噪声补偿、自动增益控制以及这些功能特征的结合引出了一个新的、唯一的概念──智能电平控制(ILC)。普通产品只能提供一个基于设定值的固定增益电平(或衰减电平)，而ILC技术适合于指定呼叫特征，调整语音到理想的收听电平，并在整个呼叫过程中动态地再作调整，以达到一个清晰、持续的、可听懂的语音信号。