音视频开发入门

337 阅读 0 评论 223 点赞

我是靠谱客的博主俏皮蜜粉，这篇文章主要介绍音视频开发入门，现在分享给大家，希望可以做个参考。

音视频开发入门

作者：凡几多
链接：https://juejin.cn/post/6844903924202225678
来源：稀土掘金

视频播放器的原理

我们首先来看一下视频播放器的原理，然后讲解一下里面的一些基本的概念。如图就是视频播放器的原理了。

在这里插入图片描述

视频文件格式就是我们通常说的mp4，mkv，flv等等这些。这些文件格式也叫封装格式，那什么是封装格式呢？就是把视频数据和音频数据打包成一个文件的规范。视频里面是包括音频还有视频数据，所以也可以把它看作一个容器。注意，容器里面的数据是经过压缩后的数据。

封装格式的主要作用是把视频码流和音频码流按照一定的格式存储在一个文件中。现如今流行的封装格式如下表所示：

视频封装格式	视频文件格式
AVI（Audio Video Interleaved）	.avi
WMV（Windows Media Video）	.wmv、.asf
MPEG（Moving Picture Experts Group）	.mpg、.mpeg、.vob、.dat、.3gp、.mp4
Matroska	.mkv
Real Video	.rm、.rmvb
QuickTime File Format	.mov
Flash Video	.flv

下面详细介绍几个视频的封装格式：

1、AVI 格式，对应的文件格式为 .avi，全称 Audio Video Interleaved，是由 Microsoft 公司于 1992 年推出。这种视频格式的优点是图像质量好，无损 AVI 可保存 alpha 通道。缺点是体积过于庞大，并且压缩标准不统一，存在较多的高低版本兼容问题。
2、DV-AVI 格式，对应的文件格式为 .avi，英文全称 Digital Video Format，是由索尼、松下、JVC 等多家厂商联合提出的一种家用数字视频格式。常见的数码摄像机就是使用这种格式记录视频数据的。它可以通过电脑的 IEEE 1394 端口传输视频数据到电脑，也可以将电脑中编辑好的的视频数据回录到数码摄像机中。
3、WMV 格式，对应的文件格式是 .wmv、.asf，英文全称 Windows Media Video，是微软推出的一种采用独立编码方式并且可以直接在网上实时观看视频节目的文件压缩格式。在同等视频质量下，WMV 格式的文件可以边下载边播放，因此很适合在网上播放和传输。
4、MPEG 格式，对应的文件格式有 .mpg、.mpeg、.mpe、.dat、.vob、.asf、.3gp、.mp4 等等，英文全称 Moving Picture Experts Group，是由运动图像专家组制定的视频格式，该专家组于 1988 年组建，专门负责视频和音频标准制定，其成员都是视频、音频以及系统领域的技术专家。MPEG 格式目前有三个压缩标准，分别是 **MPEG-1、MPEG-2、**和 MPEG-4。MPEG-4 是现在用的比较多的视频封装格式，它为了播放流式媒体的高质量视频而专门设计的，以求使用最少的数据获得最佳的图像质量。
5、Matroska 格式，对应的文件格式是 .mkv，Matroska 是一种新的视频封装格式，它可将多种不同编码的视频及 16 条以上不同格式的音频和不同语言的字幕流封装到一个 Matroska Media 文件当中。
6、Real Video 格式，对应的文件格式是 .rm、.rmvb，是 Real Networks 公司所制定的音频视频压缩规范称为 Real Media。用户可以使用 RealPlayer 根据不同的网络传输速率制定出不同的压缩比率，从而实现在低速率的网络上进行影像数据实时传送和播放。
7、QuickTime File Format 格式，对应的文件格式是 .mov，是 Apple 公司开发的一种视频格式，默认的播放器是苹果的 QuickTime。这种封装格式具有较高的压缩比率和较完美的视频清晰度等特点，并可以保存 alpha 通道。
8、Flash Video 格式，对应的文件格式是 .flv，是由 Adobe Flash 延伸出来的一种网络视频封装格式。这种格式被很多视频网站所采用。

视频的文件格式讲解完了，接下来就是视频的编码

音视频的编码

视频的编码

视频编码的主要作用是将视频像素数据（RGB，YUV等）压缩成为视频码流，从而降低视频的数据量。

名称	推出机构	推出时间	目前使用领域
HEVC（H.265）	MPEG/ITU-T	2013	高清、超清视频
H.264	MPEG/ITU-T	2003	各个领域
MPEG4	MPEG	2001	不温不火
MPEG2	MPEG	1994	数字电视
VP9	Google	2013	研发中
VP8	Google	2008	不普及
VC-1	Microsoft Inc.	2006	微软平台

H.26X 系列

H.26X 由国际电传视讯联盟远程通信标准化组织（ITU-T）主导，包括 H.261、H.262、H.263、H.264、H.265。

H.261，主要用于老的视频会议和视频电话系统。是第一个使用的数字视频压缩标准。实质上说，之后的所有的标准视频编解码器都是基于它设计的。
H.262，等同于 MPEG-2 第二部分，使用在 DVD、SVCD 和大多数数字视频广播系统和有线分布系统中。
H.263，主要用于视频会议、视频电话和网络视频相关产品。在对逐行扫描的视频源进行压缩的方面，H.263 比它之前的视频编码标准在性能上有了较大的提升。尤其是在低码率端，它可以在保证一定质量的前提下大大的节约码率。
H.264，等同于 MPEG-4 第十部分，也被称为高级视频编码（Advanced Video Coding，简称 AVC），是一种视频压缩标准，一种被广泛使用的高精度视频的录制、压缩和发布格式。该标准引入了一系列新的能够大大提高压缩性能的技术，并能够同时在高码率端和低码率端大大超越以前的诸标准。
H.265，被称为高效率视频编码（High Efficiency Video Coding，简称 HEVC）是一种视频压缩标准，是 H.264 的继任者。HEVC 被认为不仅提升图像质量，同时也能达到 H.264 两倍的压缩率（等同于同样画面质量下比特率减少了 50%），可支持 4K 分辨率甚至到超高画质电视，最高分辨率可达到 8192×4320（8K 分辨率），这是目前发展的趋势。

MPEG 系列

MPEG 系列由国际标准组织机构（ISO）下属的运动图象专家组（MPEG）开发。

MPEG-1 第二部分，主要使用在 VCD 上，有些在线视频也使用这种格式。该编解码器的质量大致上和原有的 VHS 录像带相当。
MPEG-2 第二部分，等同于 H.262，使用在 DVD、SVCD 和大多数数字视频广播系统和有线分布系统中。
MPEG-4 第二部分，可以使用在网络传输、广播和媒体存储上。比起 MPEG-2 第二部分和第一版的 H.263，它的压缩性能有所提高。
MPEG-4 第十部分，等同于 H.264，是这两个编码组织合作诞生的标准。

音频的编码

音频编码的作用： 将音频采样数据（PCM 等）压缩成音频码流，从而降低音频的数据量。常用的音频编码方式有以下几种：

名称	推出机构	推出时间	目前使用领域
AAC	MPEG	1997	各个领域（新）
MP3	MPEG	1993	各个领域（旧）
WMV	Microsoft Inc.	1999	微软平台
AC-3	Dolby Inc.	1992	电影

MP3

MP3，英文全称 MPEG-1 or MPEG-2 Audio Layer III，是曾经非常流行的一种数字音频编码和有损压缩格式，它被设计来大幅降低音频数据量。它是在 1991 年，由位于德国埃尔朗根的研究组织 Fraunhofer-Gesellschaft 的一组工程师发明和标准化的。MP3 的普及，曾对音乐产业造成极大的冲击与影响。

AAC

AAC，英文全称 Advanced Audio Coding，是由 Fraunhofer IIS、杜比实验室、AT&T、Sony 等公司共同开发，在 1997 年推出的基于 MPEG-2 的音频编码技术。2000 年，MPEG-4 标准出现后，AAC 重新集成了其特性，加入了 SBR 技术和 PS 技术，为了区别于传统的 MPEG-2 AAC 又称为 MPEG-4 AAC。 AAC 比 MP3 有更高的压缩比，同样大小的音频文件，AAC 的音质更高。

WMA

WMA，英文全称 Windows Media Audio，由微软公司开发的一种数字音频压缩格式，本身包括有损和无损压缩格式。

接下来我们要讲的就是视频的图像信息和一些基础概念了，这些概念对入门视频非常重要

视频的像素数据

视频帧

帧，是视频的一个基本概念，表示一张画面，就是一帧。一个视频就是由许许多多帧组成的。

帧率

帧率，即单位时间内帧的数量，单位为：帧/秒或fps（frames per second）。一秒内包含多少张图片，图片越多，画面越顺滑，过渡越自然。

帧率的一般以下几个典型值：

24/25 fps：1秒 24/25 帧，一般的电影帧率。

30/60 fps：1秒 30/60 帧，游戏的帧率，30帧可以接受，60帧会感觉更加流畅逼真。

85 fps以上人眼基本无法察觉出来了，所以更高的帧率在视频里没有太大意义。

色彩空间

这里我们只讲常用到的两种色彩空间。

RGB的颜色模式应该是我们最熟悉的一种，在现在的电子设备中应用广泛。通过R G B三种基础色，可以混合出所有的颜色。RGB 图像中，每个像素点都有红、绿、蓝三个原色，其中每种原色都占用 8 bit，也就是一个字节，那么一个像素点也就占用 24 bit，也就是三个字节。那么一张 1280 * 720 大小的图片，就占用 1280 * 720 * 3 / 1024 / 1024 = 2.63 MB 存储空间。这种存储方式太费空间了。有没有更高效的颜色模型能够用更少的 bit 来表示颜色呢？那就是 YUV 颜色编码。

相关实验表明，人眼对亮度敏感而对色度不敏感。因而可以将亮度信息和色度信息分离，并对色度信息采用更“狠”一点的压缩方案，从而提高压缩效率。早期的电视都是黑白的，即只有亮度值，即Y。有了彩色电视以后，加入了UV两种色度，形成现在的YUV，也叫YCbCr。

Y：亮度，就是灰度值。除了表示亮度信号外，还含有较多的绿色通道量。

U：蓝色通道与亮度的差值。

V：红色通道与亮度的差值。

和 RGB 表示图像类似，每个像素点都包含 Y、U、V 分量。但是它的 Y 和 UV 分量是可分离的，没有 UV 分量一样可以显示完整的图像，但是是黑白的。

RGB 转换为 Ycbcr 公式

Y = 0.257*R+0.564*G+0.098*B+16
Cb = -0.148*R-0.291*G+0.439*B+128
Cr = 0.439*R-0.368*G-0.071*B+128

Ycbcr 转换为 RGB 公式

R = 1.164*(Y-16)+1.596*(Cr-128)
G = 1.164*(Y-16)-0.392*(Cb-128)-0.813*(Cr-128)
B = 1.164*(Y-16)+2.017*(Cb-128)

YUV 采样格式

为节省带宽，大多数 YUV 格式平均使用的每像素位数都少于24位。主要的抽样（subsample）格式有 YCbCr4:2:0、YCbCr4:2:2、YCbCr4:1:1 和 YCbCr4:4:4。

YUV 4:4:4采样，每一个Y对应一组UV分量。
在这里插入图片描述

YUV 4:2:2采样，每两个Y共用一组UV分量。

在这里插入图片描述

YUV 4:2:0采样，每四个Y共用一组UV分量。

在这里插入图片描述

其中，最常用的就是YUV420。

最后

以上就是俏皮蜜粉最近收集整理的关于音视频开发入门的全部内容，更多相关音视频开发入门内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：音视频开发
浏览次数：337 次浏览
发布日期：2023-07-16 15:35:03

音视频开发入门