语音低速率编码技术和数字水印技术的研究

210 阅读 0 评论 139 点赞

我是靠谱客的博主笨笨洋葱，这篇文章主要介绍语音低速率编码技术和数字水印技术的研究，现在分享给大家，希望可以做个参考。

今天，我们无处不享受着数字通信系统和网络给我们带来的便利以及数字化多媒体产品带给我们的多彩的生活。数字化的触角已深入到我们生活的各个部分。“数字化”的广为应用是因为数字信号易于存储和传输，没有积累失真，数字化存储的信息可高品质的还原等。
    在语音信号处理领域中，数字化的语音传输和存储，无论在可靠性，抗干扰性，速交换，易保密和廉价格等方面都远胜于模拟语音。因此，自50年代以来，数字化语音在通信系统中所占的比重不断增加。而且，在未来的ISDN，卫星通信，移动通信，微波接力通信和信息高速公路等系统将无一例外的都采用数字化语音传输和存储。
    但是，数字化的语音信号也有其不利的一面，就是数字语音信号的带宽远大于模拟语音信号的带宽，这就需要更大的信道带宽来传输数字语音信号，造成了高成本。这就要求发展一种新的技术，来降低这种高成本。这种新技术就是压缩编码。显然，语音压缩编码的任务就是在保持语音信号在一个可以接受的状况的前提下把需要的比特数减少到最小程度。最早的标准化语音编码系统是速率为64kb/s的PCM波形编码器，经过50多年的发展，速率为4~8kb/s的波形与参数混合编码器，在语音质量上已逼近前者的水平，且已实用化。更低速率的语音编码器，也在逐步走上前台。他们的出现，带来了巨大的经济效益和社会效益。因此，低速率语音编码技术的研究是大有可为的。
   研究及实现一种MPEG提出的语音压缩编码算法是很有意义的。MPEG-4综合了当前世界多种高质量的语音编码技术，通过合成语音重现了自然语音。MPEG-4编码标准包括从2 kb/s到64 kb/s的语音编码范围，从2 kb/s到6 kb/s的低速语音编码使用的是HVXC(谐波矢量激励编码) 参数编码技术，从6/kb/s到24kb/s使用的是CELP参量编码技术。由于MPEG-4包含了众多语音编码界的优秀算法，因此掌握MPEG-4声码器的实现对于语音压缩的研究具有重要意义。
    数字化信息产品还面临一个严峻的挑战，那就是非法盗版和恶意篡改。为解决这一难题，近几年国际上出现一种新的有效的数字产品版权保护和数据安全维护的技术------多媒体数字水印。对语音而言，就是语音数字水印。其主要作用是通过将一种特制的不可见的标记，利用数字内嵌的方法隐藏在数字语音中，用以证明原创作者对其产品的所有权，并作为鉴定，起诉非法侵权的证据，同时通过对水印的探测和分析保证数字语音的完整可靠性，从而成为知识产权保护和数字多媒体防伪的有效手段。
    数字水印是目前国际上的一个热点，随着网络的高速发展，其应用将越来越广泛。研究数字水印具有广阔前景。
    语音压缩编码技术在过去几十年里得到了迅猛发展。一般来说，语音编码技术可分为三大类，即波形编码，参数编码和混合编码。波形编码以重构语音波形为目的；而参数编码是将语音信号分段，提取表征语音段特征的参数，在解码端重构一个新的相似的声音但波形不尽相同的语音信号。参数编码与波形编码相比，其优点是编码速率低，但其合成的语音质量差。而混合编码算法是结合了二者的优点，克服了各自的弱点的新一代语音算法。
    语音压缩编码技术，最典型的算法都利用了线性预测，采用合成分析方法构成，这些语音编码器能在4kb/s~16kb/s的中速率上得到高质量的合成语音，如多脉冲线性预测编码（MPLPC），规则脉冲激励线性预测（RPELPC），码本激励线性预测编码（CELP）等。80年代以来，低速率（1.2kb/s~4kb/s）的参数编码技术也在迅速发展，提出了一些新的语音模型和方法，如混合激励线性预测（MELP）声码器，正弦变换编码器（STC）和多带激励（MBE）声码器。
    根据不同的应用，语音编码技术应遵循不同的语音编码标准。目前，语音编码标准主要有三类：长途通信网语音编码标准，数字蜂窝系统的语音编码标准以及保密电话语音编码标准。
长途通信网语音编码标准有ITU-T制定，对其算法的要求是高质量和低时延。主要有以下几种：
G.711标准：1972年制定的64Kb/s PCM。
G.721标准：1984年制定的32Kb/s ADPCM。
G.728标准：1992年制定的16Kb/s LD-CELP。其主要特点是时延较低（小于等于5ms），且语音质量与G.721相当。
G.723标准: 1995年制定的6.3Kb/s MP-MLQ 和 5.3Kb/s ACELP。
G.729标准：1995年制定的8Kb/s CS-ACELP。其主要特点是固定码本采用的是代数结构，增益量化采用的是共轭结构量化，其语音质量也与G.721相当。
    由于数字蜂窝系统的可用带宽有限，数字蜂窝系统的语音编码标准对其算法的要求使速率不能太高，从而对语音质量及延时的要求略宽。其主要算法有以下几种：
ETSI-GSM全速率标准：1987年制定的13kb/s RPE-LPC。
TIA IS54半速率标准：1989年制定的7.95kb/s VSELP。
ETSI-TCH-HS标准：1994年制定的5.6kb/s VSELP。
TIA IS96标准：1993年制定的8.5,4.0,2.0,0.85kb/s QCELP。
RCR PDC全速率标准：1990年制定的6.7kb/s VSELP。
RCR PDC半速率标准：1993年制定的3.45kb/s PSI-CELP。
    窄带保密电话应用于带宽受限信道。目前只有美国公布了所用保密电话的标准。主要有：
FS-1015标准：2.4kb/s LPC。
FS-1016标准：4.8kb/s CELP。
及2.4kb/s MELP。
   上述算法各有其优缺点。为了使编码器在比特率、复杂度、时延和质量上达到最佳匹配，世界各国科研人员均做了不少工作，提出了许多新的算法。
    1998年11月，MPEG（Motion Picture Experts Group）小组公布了新的活动图象和音频信号的压缩编码标准：MPEG－4。制定这个标准的主要目的是为了使得用户在不同速率的网络传输条件下，都能得到相应的较为满意的图像与音频信号。MPEG小组在MPEG－4标准中针对不同速率的传输速度分别制定了不同编码率的图像和音频编码标准。其中，对速率在2～6Kb/s范围的低速语音编码采用了谐波矢量激励编码(Harmonic  Vector  eXcitation  Coding，HVXC)算法。
    HVXC属于LPC类算法，但在对激励信号进行处理时也汲取了STC类算法的思想。其特点是对有声段的LPC残差信号进行谐波编码，而对无声段进行矢量激励编码。HVXC标准的核心是2Kb/s速率的编码算法，在此基础上，对参数提取后产生的残差信号再次进行参数提取和编码，构成了4Kb/s速率的算法。同时，在2Kb/s速率算法的基础上，通过对背景噪声帧的低速编码，实现了1.2~1.7kb/s速率的语音编码。
   而在数字水印的研究方面，自从数字水印技术正式提出，其研究工作主要是在欧美一些著名大学和研究机构，如美国的MIT，Purdue大学，英国剑桥大学，德国Erlangen_Nuremberg大学，NEC研究所，IBM研究所等，并取得了一定的成果。
    当前，围绕数字水印技术尚待深入研究解决的问题包括：具体应用中的水印选择与宿主可容量估计；水印检测差错率估计与快速检测算法；包含HVS，HAS特性利用在内的水印系统模型；水印算法安全性论证；水印攻击和水印顽健性评价；多重水印鉴别；水印与密码系统的结合；水印与信源信道编码技术的结合；水印与印刷技术的结合；水印技术的标准化；水印应用中的第三方认证及有关法律问题等。