语音信号处理、语音特征提取

93 阅读 0 评论 62 点赞

我是靠谱客的博主清脆牛排，最近开发中收集的这篇文章主要介绍语音信号处理、语音特征提取，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

在这里插入图片描述
语音信号是一种短时平稳信号，即时变的，十分复杂，携带很多有用的信息，这些信息包括语义、个人特征等，其特征参数的准确性和唯一性将直接影响语音识别率的高低，并且这也是语音识别的基础。

语音信号特征参数是分帧提取的，每帧特征参数一般构成一个矢量，所以语音信号特征是一个矢量序列。
语音信号特征提取的基础是分帧，将语音信号切成一帧一帧，每帧大小大约是20-30ms。
特征参数应该能够比较准确地表达语音信号的特征具有一定的唯一性

端点检测：一段语音信号中准确地找出语音信号的起始点和结束点
目的：把有效的语音信号好无用的噪声信号分离
在语音识别，语音增强，语音编码，回声抵消等系统中应用广泛

语音端点检测方法分类
（1）基于阈值的方法：根据语音信号和噪声信号的不同特征，提取每一段语音信号的特征并与设定的阈值进行比较
（2）基于模式识别的方法，需要估计语音信号和噪声信号的模型参数来进行比较，鉴于模式识别方法自身复杂度高，运算量大，很难应用到实时语音信号中

端点检测本质上是根据语音和噪声的相同参数所表现出的不同特征来进行区分。传统的短时能量和过零率相结合的语音端点检测算法，短时过零率来检测清音，用短时能量来检测浊音，两者相配合实现了信号信噪比较大情况下的端点检测（以短时能量检测为主，短时过零率检测为辅）

在这里插入图片描述
短时能量法可以较好地区分出浊音和静音
短时过零率对于清音，其能量较小，会因为低于能量门限而被误判为静音，短时过零率可以区分静音和清音
双门限法：基于短时能量（高门限）和过零率（低门限）的双门限端点检测算法（当低门限被超过时，有可能是噪声引起的，未必是语音的开始，当高门限被超过并在接下来的时间段内一直超过低门限时，意味着语音信号的开始）

双门限法步骤：
（1）计算短时能量（高门限）和过零率（低门限）
（2）选取一个较高的门限，语音信号的能量包络大部分都在此门限之上，进行一次初判，语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外

在这里插入图片描述
（3）根据噪声能量，确定一个较低的门限 T并从初判起点往左，从初判终点往右搜索，分别找到能零比曲线第一次与门限 T，相交的两个点，两点之间段就是用双门限方法所判定的语音段
（4）以短时平均过零率为准，从低门限点往左右搜索，找到短时平均过零率低于某阈值的两点，为语音的起止点
在这里插入图片描述

谱熵法
熵表示信息的有序程度，语音的熵和噪声的熵存在较大的差异，可以体现语音和噪声在整个信号段中的分布概率
谱熵语音端点检测方法是通过检测谱的平坦程度，达到语音端点检测的目的

自相关法：
（1）短时自相关（已讲）
（2）由于两种信号的自相关函数存在极大的差异，可以利用这种差别来提取语音端点。根据噪声的情况，设置两个阈值 T1和T2 ，当相关函数最大值大于T2 时，便判定是语音；当相关函数最大值大于或小于T1 时，则判定为语音信号的端点。
在这里插入图片描述

基于谱熵的端点检测：基于谱熵语音端点检测方法是通过检测谱的平坦程度，来进行语音端点检测的，为了更好地进行语音端点检测，采用语音信号的短时功率谱构造语音信息谱熵，从而对语音段和噪声进行区分。检测思路：

基于谱熵的端点检测检测思路：在这里插入图片描述

比例法（1）能零比的端点检测在噪声情况下，信号的短时能量和短时过零率会发生一定变化，严重时会影响端点检测。如右图所示，语音信号的说话区间能量是向上凸起的，而过零率相反，是下凹的，这说明说话区间能量值大，过零率小，噪声区间能量值小，过零率大，从而可以检测语音端点在这里插入图片描述

基音：一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动，由它发出的音就是基音，其余为泛音。基音周期是指声带振动频率的倒数。基音周期是语音信号最重要的参数之一，它描述了语音激励源的一个重要特征

基音周期信息在多个领域有着广泛的应用,如：语音识别、说话人识别、语音分析与综合以及低码率语音编码、发音系统疾病诊断、听觉残障者的语言指导等。

由于汉语是一种有调语言，基音的变化模式称为声调，它携带着非常重要的具有辨意作用的信息，有区别意义的功能，所以，基音的提取和估计对汉语更是一个十分重要的问题

基音检测的主要困难在于： ①声门激励信号并不是一个完整周期的序列，在语音的头、尾部并不具有声带振动那样的周期性，有些清音和浊音的过度帧是很难准确地判断是周期还是非周期性的； ②在许多情况下，清音语音和低电平浊音语音段之间的过渡段是非常细微的，确定它是极其困难的；

基音检测的主要困难在于： ①从语音信号中去除声道影响，直接取出仅和声带振动有关的激励信号的信息并不容易，例如声道的共振峰有时会严重影响激励信号的谐波结构。这种影响在发音器官快速动作而共振峰也快速改变时，对对基音检测是最具危害性的。

尽管基音检测有许多困难，但因为它的重要性，基音的检测提取一直是一个研究的课题。为此提出了各种各样的基音检测算法，如
自相关函数(ACF)法、
峰值提取算法(PPA)、
平均幅度差函数(AMDF)法、
并行处理技术、
倒谱法、
简化逆滤波法(SIFT)
谱图法、
小波法 …… 这一节将介绍几种常用的基音提取方法。

短时自相关
语音信号是非平稳的信号，所以对信号的处理都使用短时自相关函数。短时自相关函数是在信号的第N个样本点附近用短时窗截取一段信号，做自相关计算所得的结果
在这里插入图片描述
m表示窗函数是从第m点开始加入
自相关法

平均幅度差函数法（AMDF）
语音信号的短时平均幅度差函数(AMDF) Fn(k) 定义为：

与短时自相关函数一样，对周期性的浊音语音，Fn(k)也呈现与浊音语音周期相一致的周期特性，不过不同的是Fn(k)在周期的各个整数倍点上具有谷值特性而不是峰值特性

平均幅度差函数法（AMDF）
因而通过Fn(k)的计算同样可以来确定基音周期。而对于清音语音信号，Fn(k)却没有这种周期特性。利用Fn(k) 的这种特性，可以判定一段语音是浊音还是清音，并估计出浊音语音的基音周期。 但是，短时平均幅度差函数来估计基音周期时，要求窗长取得足够长。可以采用LPC逆滤波和中心削波处理等方法来减少输入语音中声道特性或共振峰的影响，提供基音周期估计效果Rn (k) and Fn (k)
无论是利用自相关函数还是平均幅度差函数，语音帧应使用矩形窗
窗长的选择要合适，一般认为窗长至少应该大于两个基音周期，而为了改善估计结果，窗长应选的更长一些，是帧信号包含足够多个语音周期
平均幅度差的计算无需乘法运算，其计算复杂度较小，且基音周期点处的平均幅度差的谷点锐度比自相关函数的峰点锐度更尖锐，估值精度更高（原因：平均幅度差与语音信号幅度的快速变化比较敏感，影响估计的精度）

倒谱（CEP）法
倒谱法是传统的基音周期检测算法之一，它利用语音信号的倒频谱特征，检测出表征声门激励周期的基音信息。
原因：浊音语音的复倒谱中存在峰值，其出现时间等于基因周期；而清音语音段的复倒谱则不出现这种峰值。利用这一性质可以进行清/浊音判断并估计浊音的基音周期。

步骤：计算复倒谱 ü解卷 ü提取出声门激励信息，在预期的基音周期附近寻找峰值如果峰值超过了预先设定的门限，则语音断定为浊音，而峰的位置就是基音周期的估值如果不存在超出门限的峰值，则语音断定为清音
如果计算的是依赖于时间的复倒谱，则可估计出激励源模型及基音周期随时间的变化

倒谱（CEP）法

在这里插入图片描述

反应信息的倒谱峰，在过渡音和含噪语音中将会变得不清晰甚至完全消失。其原因当然主要是因为过渡音中周期激励信号能量降低和类噪激励信号干扰或含噪语音中的噪声干扰所致。
对于一帧典型的浊音语音的倒谱，其倒谱域中基音信息与声道信息并不是完全分离的，在周期激励信号能量较低的情况下，声道响应(特别是其共振峰)对基音倒谱峰的影响就不可忽略。
如果设法除去语音信号中的声道响应信息，对类噪激励和噪声加以适当抑制，倒谱基音检测算法的检测结果将有所改善，特别对过渡语音的检测结果将有明显改善。在这里插入图片描述

声道可以看成是一根具有非均匀截面的声管，在发音时起共鸣器的作用。当准周期脉冲激励进入声道时会引起共振特性，产生一组共振频率，称为共振峰频率或简称共振峰。
共振峰参数包括共振峰频率和频带宽度，它是区别不同韵母的重要参数。共振峰信息包含在语音频谱包络中，因此共振峰参数提取的关键是估计自然语音频谱包络，并认为谱包络中的最大值就是共振峰

提取共振峰特性最简便的手段是使用语谱仪。分析共振峰参数也可采用数字信号处理的方法，它可获得与语谱图相同的信息。但精确的共振峰估值是很困难的（原因：虚假峰值、共振峰合并、高音调语音）为此，下面讨论常用的几种解决方法。在这里插入图片描述
带通滤波器组法
这种方法类似于语谱仪，但由于使用了计算机，使滤波器特性的选取更具灵活性，实现框图如图所示。
这是共振峰提取的最早形式，与线性预测法相比，滤波器组法有些逊色。但通过滤波器组的设计可以使估计的共振峰频率同人耳  的灵敏度相匹配，其匹配的程度比线性预测法要好。在这里插入图片描述
滤波器的中心频率有两种分布方法： ①等间距地分布在分析频段上，则所有带通滤波器的带宽可设计成相同，从而保证了各通道的群延时相同。 ②是非均匀地分布，例如为了获得类似于人耳的频率分辨特性，在低频端间距小，高频端间距大，带宽也随之增加，这时滤波器的阶数必须设计成与带宽成正比，使得它们输出的群延时相同，不会产生波形失真。
缺点：由于滤波器组中的滤波器数目有限，估计的共振峰频率不可避免地存在误差；而且对共振峰带宽不易确定；由于无法去除声门激励的影响，可能会造成虚假峰值。

倒谱法
在这里插入图片描述

对于浊音和清音，倒谱法的检测效果不同：
浊音时，若频谱包络的变换和基音峰值的变换在倒谱中的间隔足够大，则频谱包络的变换很容易识别。而声道冲激响应h(n) 的倒谱的特性取决于声道传递函数H(z)的极零点分布。当H(z) 的极零点的模不是很接近于1时，将随n的增加而迅速减小。 p清音时，声门激励序列具有噪声特性，其倒谱没有明显峰值，且分布于从低倒谱域到高倒谱域的很宽的范围内，因而在低倒谱域对声道响应的信息产生了影响。注意：求得的声道模型对数谱与实际的声道对数谱之间将存在一定差别

倒谱法存在的缺陷：并不是所有的谱峰都为共振峰；带宽的计算。原因： ① 当两个共振峰很靠近时，发生谱重叠，很难从频谱曲线计算共振峰的带宽。 ② 而且峰值检测器认为此处只存在一个共振峰

线性预测编码（LPC）法 Ø LPC法的重要性在于提供了一组简洁的语音信号模型参数，比较精确地表征了语音信号的幅度谱。语音信号共振峰的LPC法的一个主要特点在于能够由预测系数构成的多项式中精确地估计共振峰频率和带宽。 LPC法可对语音信号进行参数解卷，它所提供的谱包络恢复方法快速、准确并且在理论上完全得到了证明； LPC法的不足是其频率灵敏度和人耳不相匹配，但它仍然是一种最廉价、最优良且行之有效的方法——因为线性预测方法提供了一个优良的声道模型（条件是语音基本上不含噪声

线性预测编码（LPC）法
用LPC进行共振峰估计的两种方案：对全极模型的分母多项式A(z)进行因式分解，即用任何一种标准的求取复根的程序确定A(z)的根，根据求得的根来确定共振峰——求根法
进行LPC谱估计。LPC谱的特点是在信号的峰值处和信号谱匹配的很好，因此能够准确地求得共振峰参数；即求出语音谱包络后，搜索包络上的局部极大值，用峰值检测器确定共振峰
LPC法常常可以得到比较尖锐的共振峰估计，比实际的共振峰可能还要窄在这里插入图片描述