概述
上一节主要介绍了关于语音听觉的相关内容,从本节开始,我们将展开一系列关于语音时域信号分析、频域信号、线性预测分析、倒谱特征等相关内容。
本节的主要介绍语音信号处理中的加窗函数,包括常用的矩形窗、汉明窗等内容。
作者&编辑 | 小米粥
编辑 | 言有三
1. 语音听觉系统
语音信号在10-30ms的范围内具有短时平稳性,因而在处理前需要经过分帧操作,即把一个语音信号切分成多个帧片段。为了使帧与帧之间平滑过渡,具有连贯性,通常要采用交叠分段的方法,即相邻帧之间存在重叠部分,该交叠部分的长度定义为帧移,而每一帧语音信号的长度定义为帧长。此外,一般帧移为帧长的0到0.5倍。
当对语音信号进行截断分帧后,将产生能量泄露现象。截断函数是频带无限的函数,而语音信号是有限带宽信号,因而截断后语音信号的在频率中能量将被扩展。根据采样定理,只有采样频率超过信号最高频率的2倍,才可能恢复信号,因而无论采样频率多高,只要经过截断处理,则将引起混叠。此时,通过使用加权函数,即窗函数,使能量集中在主瓣,则可以获得更接近真实频谱的信号,减少能量泄露。
1. 矩形窗、汉明窗和汉宁窗
对于语音信号 s(t),设长度有限、可移动的窗函数为 w(t),则加窗语音信号为s(t)·w(t)。
矩形窗的是最直观、简单的窗函数,我们以其为例进行说明。矩形窗的表达式为:
其中, N为窗口宽度。例如,对于采样频率为16kHz的语音信号,若帧长设置为25ms,则N为400.
汉明(hamming)窗(又称为余弦升窗)的表达式为:
此外,汉宁窗与汉明窗的表达式为非常近似,只是将抵消期限和缩放项均修改为0.5。汉明窗可以使得窗函数值最低也不为0,而汉宁窗无法保证。
汉宁窗的表达式为:
汉明窗和汉明窗函数的图像如下所示:
接下来,我们对窗函数的频谱特性进行说明。窗函数频率响应具有低通性,矩形窗对应的数字滤波器的单位冲击响应频谱 HR(w)为(即计算离散傅里叶变换):
其中偶函数 AR(w)的函数图像 (N=51)如下所示
函数AR(w)所对应的第一个置零点归一化频率为 1/N,对应的非归一化规律为w=2π/N,因而主瓣宽度为4π/N;旁瓣最高值所对应的频率为w=3π/N,对应的旁瓣峰值为-13dB,计算方式如下。
其函数图像(N=51如下所示)
可以看出,汉宁窗相当于三部分矩形窗频谱相加,使旁瓣互相抵消,使其能量集中在主瓣,旁瓣大大减小,主瓣宽度增加1倍。
2. 窗函数性能对比
(1)矩形窗。矩形窗使用最多,习惯上不加窗就是使信号通过了矩形窗。这种窗的优点是主瓣比较集中,缺点是旁瓣较高,并有负旁瓣,导致变换中带进了高频干扰和泄漏,甚至出现负谱现象。频率识别精度最高,幅值识别精度最低,所以矩形窗不是一个理想的窗。如果仅要求精确读出主瓣频率,而不考虑幅值精度,则可选用矩形窗。
(2)汉宁窗。主瓣加宽并降低,旁瓣则显著减小,从减小泄漏观点出发,汉宁窗优于矩形窗.但汉宁窗主瓣加宽,相当于分析带宽加宽,频率分辨力下降。它与矩形窗相比,泄漏、波动都减小了,并且选择性也提高。如果信号有多个频率分量,频谱表现的十分复杂,且测试的目的更多关注频率点而非能量的大小,需要选择汉宁窗。
(3)汉明窗。与汉宁窗都是余弦窗,又称改进的升余弦窗,只是加权系数不同,使旁瓣达到更小。但其旁瓣衰减速度比汉宁窗衰减速度慢。其功能和应用与汉宁窗类似。在语音信号处理中,汉明窗应用最为广泛。
(4)平顶窗。平顶窗在频域时的表现就象它的名称一样有非常小的通带波动。由于在幅度上有较小的误差,所以这个窗可以用在校准上。
(5)凯塞窗。定义了一组可调的由零阶贝塞尔Bessel 函数构成的窗函数,通过调整参数β可以在主瓣宽度和旁瓣衰减之间自由选择它们的比重。
。定义了一组可调的由零阶贝塞尔函数构成的窗函数,通过调整参数β可以在主瓣宽度和旁瓣衰减之间自由选择它们的比重。
(6)布莱克曼窗。二阶升余弦窗,主瓣宽,旁瓣比较低,但等效噪声带宽比汉宁窗要大一点,波动却小一点。频率识别精度最低,但幅值识别精度最高,有更好的选择性。常用来检测两个频率相近幅度不同的信号。
(7)高斯窗。是一种指数窗。主瓣较宽,故而频率分辨力低;无负的旁瓣,第一旁瓣衰减达一55dB。常被用来截短一些非周期信号,如指数衰减信号等。对于随时间按指数衰减的函数,可采用指数窗来提高信噪比。
高斯窗是一种指数窗。主瓣较宽,故而频率分辨力低;无负的旁瓣,第一旁瓣衰减达一55dB。常被用来截短一些非周期信号,如指数衰减信号等。对于随时间按指数衰减的函数,可采用指数窗来提高信噪比。
(8)三角窗。是幂窗的一次方形式。与矩形窗比较,主瓣宽约等于矩形窗的两倍,但旁瓣小,而且无负旁瓣。
(9)切比雪夫窗。在给定旁瓣高度下,Chebyshev窗的主瓣宽度最小,具有等波动性,也就是说,其所有的旁瓣都具有相等的高度。
对于语音信号处理中最常见的矩阵窗和汉明窗,矩形窗的平滑性更好但损失了高频信息,能量泄露相对严重;汉明窗相对应用更加广泛。
3. 窗函数长度选择
窗口长度N对能否反应语音信号变化幅度起决定性作用。
如果窗口长度N比较大(量级达到多个基音周期的水平),则窗函数等效于带宽很窄的低通滤波器,高频成分损失较多,短时能量随时间变化较小,无法反应波形细节;
若窗口长度N比较小,则滤波器的通带变宽,短时能量随时间变化较大,无法获得平滑的短时信息。
[1] 韩纪庆, 张磊, 郑铁然. 语音信号处理.第2版[M]. 清华大学出版社, 2013.
[2] 赵力. 语音信号处理: 机械工业出版社[M]. 机械工业出版社, 2016.
[3] 卢官明, 宗昉. 数字音频原理及应用[M]. 机械工业出版社, 2012.
总结
本节的主要介绍语音信号处理中的窗函数,包括窗函数的定义由来,经典的矩形窗、汉明窗、汉宁窗,并对常见的窗函数进行总结,最后简要说明了窗函数长度的影响。
下一节,我们将介绍语音信号的时域信号分析相关内容。
有三AI-语音群
有三AI建立了一个语音群,便于有志者相互交流。感兴趣的同学也可以微信搜索 xiaozhouguo94,备注"加入有三-语音群"。
小米粥知乎
本专栏作者——小米粥 也在知乎进行同步更新专栏《语音信号处理》,欢迎相关同学共同讨论学习。
有三AI计算机视觉学习季划
有三AI-CV季划是我们推出的终身计算机视觉培养计划,有三作为导师直接带领,囊括答疑,微信群交流,线下活动,多本自写的书籍,图文课件与代码,视频与直播,知识星球社区,内容组与研发组权限,了解详细请阅读以下文章:
【CV夏季划】2022年正式入夏,从理论到实践,如何系统性进阶CV?(产学研一体的超硬核培养方式)
【CV秋季划】模型算法与落地很重要,如何循序渐进地学习好(2022年言有三一对一辅导)?
【CV秋季划】人脸算法那么多,如何循序渐进地学习好?
【CV秋季划】图像质量提升与编辑有哪些研究和应用,如何循序渐进地学习好?
【CV秋季划】生成对抗网络GAN有哪些研究和应用,如何循序渐进地学习好?
【CV冬季划】终极进阶,超30个项目实战+3本书+3年知识星球
转载文章请后台联系
侵权必究
往期精选
【杂谈】有三AI的一对一永久技术答疑服务,我们至少不会跑路
【语音处理】开始学习语音,从基本概念和应用讲起
【语音处理】声音的产生机制和数学模型
最后
以上就是隐形狗为你收集整理的【语音处理】时域信号分析基本工具,什么是窗函数的全部内容,希望文章能够帮你解决【语音处理】时域信号分析基本工具,什么是窗函数所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复