概述
作者 | 飞利信产品研发中心
地址 | 北京市海淀区塔院志新村2号飞利信大厦
作为国内智能会议系统的领航者,飞利信在近些年全国“两会”会议期间,共为26个省、自治区、市超过100余家人大、政协等机关单位提供了会议服务保障工作。飞利信提供的整套智能化的会议服务,良好地保障了会议的顺利进行。
作为现场会议必不可少的发言功能,飞利信也做了大量的探索和研发工作,下面就简单介绍一下飞利信的麦克风阵列技术。
一、背景介绍
麦克风阵列是由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。
远场拾音指运用远场识别和降噪技术,使拾音距离达到5米。
声源定位利用麦克风阵列,实现120°/180°/360°语音信号采集,并能通过声源定位来确定目标说话人的方向。
为了描述麦克风的性能,有几个性能指标是非常关键的,这包括了灵敏度、指向性、频率响应、阻抗、动态范围、信噪比、最大声压级(或AOP,声学过载点)、一致性等。这几个指标其实都好理解,决定了麦克风的性能,而且每个指标都非常关键,缺一不可。
麦克风是典型的传感器产业,但是其技术迭代非常迅速,近年来外观尺寸也发生了很大变化,集成到电路板中后一般人很难快速找出。
二、麦克风阵列简介
1.人机交互痛点
1、识别距离近:语音交互受限距离不能进行远场的识别
2、对话不智能:不能持续进行多轮对话不能打断
3、嘈杂环境:在嘈杂环境下识别率低饱受噪声干扰
4、响应时间慢:不能即时快速响应交互不流畅导致体验下降。
2.近场语音和远场语音
大家应该都体验过有屏手持设备的语音交互,如Siri以及各种语音助手App,我们把这种采用单颗麦克风进行拾音及识别的场景叫做近场语音识别。
近场语音存在一些先天性的缺陷:
1、近距离讲话:1米以内交互效果较好,超出1米后很难识别
2、对环境有要求:尽量安静,周围不能有噪声干扰;
3、标准人声发音:字正腔圆普通话,其它的很难支持;
4、无法自动多轮交互:需由用户触发一次交互的开始及结束;
5、不支持打断功能:机器发声结束后才可以进行下一轮对话。
而远场语音提供麦克阵列前端算法,解决人机交互中,距离较远带来的识别率较低的问题,让人机对话更加方便。通过远场语音识别技术,可以让用户,即使在三至五米的距离,也可对智能家居进行语音操作。
三、麦克风阵列的功能
人机之间的语音交互(这里主要指智能硬件、机器人等),区别于传统的有屏手持设备,涉及到复杂的环境和远距离拾音的问题。通过麦克风阵列使语音交互距离大大增加,使人机交互更加自然,更趋向于人人交互。
人机交互过程中的噪声可以分为以下几类:回声,混响,干扰和背景噪声;麦克风阵列具备的功能:自动增益控制;回声控制、回声消除、回声抑制;去混响;声源定位、波束形成、语音增强、盲源分离、干扰抑制;噪声控制、主动噪声控制、降噪等。
四、麦克风阵列构型
1、六麦环形阵列:六麦环形阵列适用于应用场景较为复杂(例如商场、办公室),对角度定位要求比较高,回声消除和识别率要求较高的机器人和家居产品解决方案。
2、四麦线性阵列:四麦线性阵列适用于车载,空调,电视,应用型机器人等智能装备,支持0~180°角度定位,回声消除和连续唤醒等功能。
3、两麦线性阵列:两麦线性阵列对芯片性能要求较低,适用于低成本的智能装备解决方案,支持回声消除和噪声抑制等功能。
以六麦阵列为例,其具备以下功能特性:
1、波束形成(波束形状是阵列对不同频率及方向的信号的响应,它与阵列麦克风数目、几何形状、源信号位置以及频率有关。)
2、回声消支持信噪比-30dB左右
3、平稳噪声滤波
4、方向性非平稳噪声抑制
5、语音增强和去混响
6、声源定位精度±10°
最后
以上就是精明星星为你收集整理的多麦克风做拾音的波束_飞利信麦克风阵列技术,让会议声音声临其境的全部内容,希望文章能够帮你解决多麦克风做拾音的波束_飞利信麦克风阵列技术,让会议声音声临其境所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复