我是靠谱客的博主 唠叨小土豆,最近开发中收集的这篇文章主要介绍数字编码;数字语音编码,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

数字编码;数字语音编码

模拟与数字信号(Analogue vs. Digital Signals)
• 所有自然信号(包括语音)都是“模拟”– 他们可以假设无限的可能值;它们在时间中连续存在
• 完美处理模拟信号需要无限分辨率和/或无限存储
• 任何实用系统(计算机或生活有机体)必须牺牲保真度才能使用有限资源处理信号
• 因此,信号必须在每个维度(幅度和时间)– 时间方向的量化称为“采样”

信号序列的量化
时间方向是通过“采样”来实现的
• 语音信号(例如来自麦克风)通常是
– 量化幅度
– 及时采样
• 信号量化过程和抽样被称为:“脉冲编码调制”(PCM)

幅度量化(Amplitude Quantisation)
• 可用于的数字范围表示信号的幅度定义了系统的“动态范围”
• 如果 n 位用于存储每个幅度值,然后 2^n 个可能的值可以是
代表(0到2^n-1)
• 动态范围为 20 log10(2^n-1) 分贝
• 例如:16 位幅度量化给出了65535 个可能的值;96 分贝动态范围

连续信号采样
• 计算机通常无法处理连续的信号
• 必须对信号进行采样和量化

采样间隔:
Ts= 1/fs
fs = 8000HZ(说话)
fs = 44100HZ(音乐)
要确定采样正弦曲线的频率,每个时期至少需要两个样本

采样率(Sample Rate)
• “奈奎斯特采样定理”表明我们需要至少两倍的样本点数
每秒作为信号中的最高频率:采样率 > 2 x 最大信号频率
• 对低于奈奎斯特速率的信号进行采样会导致“混叠”(频率高于采样的能量率被反射回较低的频率)
• 例如:混叠可能发生在数字图像中,如果空间频率高于像素分辨率(结果是“莫尔条纹”)
• 通常在采样前对信号进行低通滤波为了避免混叠:fc < 0.5 fs
fc是滤波器的“截止频率(cut-off frequency)”; fs是“采样频率”

抽样理论
• 对连续信号 s(t) 进行采样是等效的乘以“狄拉克三角函数”
• 这个冲量是单位面积的一个矩形以 t0 为中心,其宽度趋于 0
狄拉克δ函数是一个广义函数,在物理学中常用其表示质点、点电荷等理想模型的密度分布,该函数在除了零以外的点取值都等于零,而其在整个定义域上的积分等于1。
狄拉克δ函数在概念上,它是这么一个“函数”:在除了零以外的点函数值都等于零,而其在整个定义域上的积分等于1。

编码理论
• 源自“信息论”(由克劳德·香农于 1948 年创立)
• 基于概率论和统计学
• 最重要的信息量是:
–“熵entropy”(随机变量中的信息)
– “相互信息mutual information”(信息量两个随机变量之间的共同点)
• 信息通常以位( bits)表示
– 熵表示数据的容易程度‘压缩’(由于冗余)
– 互信息可用于查找通过信道的通信速率

数字编码:图像
• 示例图像:360 像素宽,480 像素高,3 种颜色 (RGB),1 字节/颜色
• 原始数据(位图)Raw data (bitmap):518.4 KB (360 x 480 x 3)
• “无损”编码‘Lossless’ coding (LZW-TIF):378 千字节
• “有损”编码‘Lossy’ coding (jpeg): 31 千字节

数字编码:信号
• “编码”一个信息所需的信息量
信号由幅度量化(以比特/样本为单位)采样率(以样本/秒为单位)和定义
• 因此,数字信号的特征在于他们的“数据速率”(以比特/秒为单位 - bps)
– 以太网 LAN = 10 Gbps
– 无线 LAN = 600 Mbps
– ADSL 调制解调器 = 24 Mbps
– 4G 移动数据 = ~10 Mbps
– 3G 移动数据 = ~4 Mbps

数字编码:语音
• 演讲有约 10 kHz 的带宽,约 50 dB 的动态范围
• 因此,最小量化和采样要求似乎是20 kHz 采样率,8 位量化, 即 160 kbps
• 但是,可以同时降低带宽和动态范围在遭受重大损失之前显着
语言清晰度下降
– 例如 电话的带宽为 ~300 Hz 至 ~3.5 kHz(这对于 [f] 和 [s] 等声音来说是个问题)
• 数字语音“编解码器”充分利用有损压缩方案(通过利用“源过滤器”语音模型)
• 数字电话:8000 Hz * 8 Bit = 64.000 Bit /sec (ISDN)
• GSM(2G 移动):4-13 kBit/秒
综合业务数字网络 (ISDN) 是一组通信标准,用于通过公共交换电话网络的数字化电路同时数字传输语音、视频、数据和其他网络服务。
全球移动通信系统 (GSM) 是由欧洲电信标准协会 (ETSI) 开发的标准,用于描述移动电话和平板电脑等移动设备使用的第二代 (2G) 数字蜂窝网络协议。 GSM 也是 GSM 协会拥有的商标。GSM 也可能指全速率语音编解码器。
Audio/Speech Codecs
• DVD audio (24 bit 192 kHz PCM) = 4,608 kbps
• CD audio (16 bit 44.1 kHz PCM) = 705.6 kbps
• 16 bit 16 kHz PCM = 256 kbps
• telephone (8 bit 8 kHz ADPCM) = 64 kbps
• MP3 of these lectures = 24 kbps
• mobile phone (GSM CELP) = 13 kbps
• VOIP (low rate) = 8 kbps
• NATO vocoder (channel) = 2400 bps
• NATO vocoder (LPC10e) = 2400 bps
• NATO vocoder (MELP) = 1200 bps

数字语音编码
• 语音中的“信息率”估计为只有~100 bps!
– 语言信息 = ~50 bps
– 副语言信息 = ~50 bps
• 那么为什么我们需要kbps 声码器?
• 以较低速率编码信号的方法是利用信号中的任何“冗余”
• 对于语音,这是通过使用预测来实现的模型(在以后的讲座中会详细介绍)
• 语音的最终预测模型是“语音识别”+“语音合成”

最后

以上就是唠叨小土豆为你收集整理的数字编码;数字语音编码的全部内容,希望文章能够帮你解决数字编码;数字语音编码所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(46)

评论列表共有 0 条评论

立即
投稿
返回
顶部