音视频之采样率

93 阅读 0 评论 62 点赞

我是靠谱客的博主细腻芝麻，最近开发中收集的这篇文章主要介绍音视频之采样率，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

音频采样率

是指录音设备在一秒钟内对声音信号的采样次数，采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上，采样频率一般共分为11025Hz、22050Hz、24000Hz、44100Hz、48000Hz五个等级，11025Hz能达到AM调幅广播的声音品质，而22050Hz和24000HZ能达到FM调频广播的声音品质，44100Hz则是理论上的CD音质界限，48000Hz则更加精确一些。

采样率（也称为采样速度或者采样频率）

定义了每秒从连续信号中提取并组成离散信号的采样个数，它用赫兹（Hz）来表示。采样频率的倒数叫作采样周期或采样时间，它是采样之间的时间间隔。注意不要将采样率与比特率（bit rate，亦称“位速率”）相混淆。

采样频率只能用于周期性采样的采样器，对于非周期性采样的采样器没有规则限制。

采样频率的常用的表示符号是{displaystyle f_{s},}。

在数字音频领域，常用的采样率有：

8,000 Hz - 电话所用采样率，对于人的说话已经足够
11,025 Hz - AM调幅广播所用采样率
22,050 Hz和24,000 Hz - FM调频广播所用采样率
32,000 Hz - miniDV数码视频camcorder、DAT（LP mode）所用采样率
44,100 Hz - 音频CD,也常用于MPEG-1音频（VCD, SVCD, MP3）所用采样率
47,250 Hz - Nippon Columbia（Denon）开发的世界上第一个商用PCM录音机所用采样率
48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率
50,000 Hz - 二十世纪七十年代后期出现的3M和Soundstream开发的第一款商用数字录音机所用采样率
50,400 Hz - 三菱X-80商用数字录音机所用所用采样率
96,000或者192,000 Hz - DVD-Audio、一些LPCM DVD音轨、Blu-ray Disc（蓝光光盘）音轨、和HD-DVD（高清晰度DVD）音轨所用所用采样率
2.8224 MHz - SACD、索尼和飞利浦联合开发的称为Direct Stream Digital的1位sigma-delta modulation过程所用采样率。

声音其实是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。
采集过程中视频和音频同步是非常重要的，光有频率信息是不够的，我们还必须获得该频率的能量值并量化，用于表示信号强度。量化电平数为2的整数次幂，我们常见的CD位16级的采样大小，即2的4次方。采样大小相对采样率更难理解，因为要显得抽象点，举个简单例子：假设对一个波进行8次采样，采样点分别对应的能量值分别为A1-A8，但我们只使用2bit的采样大小，结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小，则刚好记录下8个点的所有信息。采样率和采样大小的值越大，记录的波形更接近原始信号。

参见：

维基百科
百度百科
豆瓣
音频码率计算

音频

音频中叫采样率，是指把音频信号数字化（AD采样）后一个通道1秒钟有多少个样本，对应而来的就是原始的数据。如44.1kHz的采样率，就是指1个通道1秒钟有44.1k个数据，这数据可以是16位，也可以是24或者其他，这就是采样精度。
码率就是音频文件或者音频流中1秒中的数据量，如1.44Mbps，就是1秒钟内的数据量达1.44Mbits。
原始的音频数据和实际传输的音频流的大小一般不一致，是因为存在压缩算法这东东。压缩后的音频流一般是固定比特率，这样有利于稳定地传输。也可能是可变比特率，同样大小的文件能取得更好的压缩效果。
CD音质，一般2通道，原始音频数据1秒钟的数据量是44.1k162=1411.2kbits, 压缩成128kbps的MP3，1秒钟数据就变成了128kbits了。丢了少许一般人耳或者设备还原不了的细节，节省了大量的磁盘空间或带宽。

视频

视频中对应时域的概念叫帧率，如电影的24fps，还有各种30fps，60fps，甚至高速摄影中的120fps，就是指1秒钟抓多少幅图像。耳朵比眼睛灵敏多了，眼睛还有视觉残留，所以这个帧率比音频采样率低太多了。但是图像细节更多，所以视频有尺寸大小，分辨率，也有采样精度（8b/10b）之类的区别。假设都是1920x1080的图像，30fps。图像原始的格式是RGB888，一秒钟的数据量就是（8+8+8）1920108030 = 1,492,992,000 bits。
同样视频也存在压缩算法，如H.264，压缩完1秒钟的数据就叫码率。假设H.264压缩1080p的视频，码率是10Mbps，就是说1秒中的数据量为101024*1024= 10,485,760 bits。
两者差别这么大，也是通过色彩空间转化，压缩，丢掉一些人眼感知不到的细节，换取磁盘空间或带宽。

一般而言，采样率（帧率）越高，就能越真实低保留【原始模拟的音视频细节】。码率（采样率）越高，能保留的【数字化后的音视频内容】细节就越多，还原出来的音质或者画质就越好。但是，技术是在不断进步的，现在5W的LED比20年前5W的白炽灯要亮太多了。所以得结合各种采样方式，压缩算法质量，甚至音视频特性来分析。