半年过去，AI视频卷到哪儿了？

2024-08-03 03:30 89 阅读 0 评论 59 点赞

声明：本文来自于微信公众号定焦（dingjiaoone），作者：王璐，授权靠谱客转载发布。

自从今年年初Sora露面后，国内国外都想用AI颠覆好莱坞，近期的AI视频圈更是十分热闹，产品一个接一个发布，都喊着要赶超Sora。

国外两家AI视频初创公司率先开打，旧金山人工智能科技公司Luma推出Dream Machine视频生成模型，并扔出堪称电影级别的宣传片，产品也给用户免费试用;另一家在AI视频领域小有名气的初创公司Runway，也宣布将Gen-3Alpha模型向部分用户开启测试，称能将光影这样的细节生产出来。

国内也不甘示弱，快手推出的可灵Web端，用户能生成长达10秒的视频内容，还具备首尾帧控制和相机镜头控制功能。其原创AI奇幻短剧《山海奇镜之劈波斩浪》也在快手播出，画面均由AI生成。AI科幻短剧《三星堆:未来启示录》也在近期播出，为字节旗下的AI视频产品即梦制作。

AI视频如此快的更新速度让不少网友直呼，“好莱坞可能又要来一次大罢工了。”

如今在AI视频赛道上，有谷歌、微软、Meta，阿里、字节、美图等国内外科技、互联网巨头，也有Runway、爱诗科技等新秀公司，据「定焦」不完全统计，仅国内，便有约20家公司推出了自研AI视频产品/模型。

头豹研究院数据显示，2021年中国AI视频生成行业的市场规模为800万元，预计2026年，这一市场规模将达到92.79亿元。不少业内人士相信，2024年生成视频赛道会迎来Midjourney时刻。

全球的Sora们发展到什么阶段了?谁最强?AI能干掉好莱坞吗?

围攻Sora:

产品虽多，能用的少

AI视频赛道推出的产品/模型不少，但真正能让大众使用的十分有限，国外的突出代表便是Sora，半年过去了还在内测，仅对安全团队和一些视觉艺术家、设计师和电影制作人等开放。国内情况也差不多，阿里达摩院的AI视频产品“寻光”、百度的AI视频模型UniVG都在内测阶段，至于目前正火的快手可灵，用户想使用也需要排队申请，这已经刨去了一大半产品。

剩下可使用的AI视频产品中，一部分设置了使用门槛，用户需要付费或懂一定技术。比如潞晨科技的Open-Sora，如果不懂一点代码知识，使用者便无从下手。

「定焦」整理国内外公布的AI视频产品发现，各家的操作方式和功能差不多，用户先用文字生成指令，同时选择画幅大小、图像清晰度、生成风格、生成秒数等功能，最终点击一键生成。

这些功能背后的技术难度不同。其中最难的是，生成视频的清晰度和秒数，这也是AI视频赛道各家在宣传时比拼的重点，背后与训练过程中使用的素材质量和算力大小密切相关。

AI研究者Cyrus告诉「定焦」，目前国内外大多数AI视频支持生成480p/720p，也有少部分支持1080p的高清视频。

他介绍，高质量素材越多，算力越高，训练出来的模型能生成更高质量的视频，但不代表有高质量的素材算力，就能生成高质量素材。而用低分辨率素材训练的模型，若要强行生成高分辨视频，会出现崩坏或者重复，比如多手多脚。这类问题可以通过放大、修复和重绘之类的方式解决，不过效果和细节一般。

很多公司也把生成长秒数当卖点。

国内大部分AI视频支持2-3秒，能达到5-10秒算是比较强的产品，也有个别产品很卷，比如即梦最高长达12秒，不过大家都不及Sora，它曾表示最长能生成一段60秒的视频，但由于还没有开放使用，具体表现如何无法验证。

光卷时长还不够，生成的视频内容也得合理。石榴AI首席研究员张恒对「定焦」表示:从技术上，可以要求AI一直输出，毫不夸张地说，哪怕生成一个小时的视频，也不是问题，但我们多数时候要的并不是一段监控视频，也不是一个循环播放的风景画动图，而是画面精美有故事的短片。

「定焦」测试了5款国内比较热的免费文生视频AI产品，分别为字节的即梦、Morph AI的Morph Studio、爱诗科技的PixVerse、MewXAI的艺映AI、右脑科技的Vega AI，给了它们一段相同的文字指令:“一个穿着红裙子的小女孩，在公园里，喂一只白色的小兔子吃胡萝卜。”

几款产品的生成速度上差不多，仅需2-3分钟，但清晰度、时长差得不少，准确度上更是“群魔乱舞” ，得到结果如下:

艺映AI

Vega AI

即梦

Morph

Pix Verse

各家的优缺点很明显。即梦赢在时长，但生成质量不高，主角小女孩在后期直接变形，Vega AI也是相同的问题。PixVerse的画质比较差。

相比之下，Morph生成的内容很准确，但只有短短2秒。艺映画质也不错，但对文字理解不到位，直接把兔子这一关键元素弄丢了，且生成视频不够写实，偏漫画风。

总之，还没有一家产品能给到一段符合要求的视频。

AI视频难题:

准确性、一致性、丰富性

「定焦」的体验效果和各家释放的宣传片相差很大，AI视频如果想要真正商用，还有相当长的一段路要走。

张恒告诉「定焦」，从技术角度看，他们主要从三个维度考量不同AI视频模型的水平:准确性、一致性、丰富性。

如何理解这三个维度，张恒举了个例子。

比如生成一段“两个女孩在操场看篮球比赛”的视频。

准确性体现在，一是对内容结构理解的准确，比如视频中出现的要是女孩，而且还是两个;二是流程控制的准确，比如投篮投进后，篮球要从篮网中逐渐下降;最后是静态数据建模准确，比如镜头出现遮挡物时，篮球不能变成橄榄球。

一致性是指，AI在时空上的建模能力，其中又包含主体注意力和长期注意力。

主体注意力可以理解为，在看篮球比赛的过程中，两个小女孩要一直留在画面里，不能随便乱跑;长期注意力为，在运动过程中，视频中的各个元素既不能丢，也不能出现变形等异常情况。

丰富性则是指，AI也有自己的逻辑，即便在没有文字提示下，能生成一些合理的细节内容。

以上维度，市面上出现的AI视频工具基本都没能完全做到，各家也在不断提出解决办法。

比如在视频很重要的人物一致性上，即梦、可灵想到了用图生视频取代文生视频。即用户先用文字生成图片，再用图片生成视频，或者直接给定一两张图片，AI将其连接变成动起来的视频。

“但这不属于新的技术突破，且图生视频难度要低于文生视频，”张恒告诉「定焦」，文生视频的原理是，AI先对用户输入的文字进行解析，拆解为一组分镜描述，将描述转文本再转图片，就得到了视频的中间关键帧，将这些图片连接起来，就能获得连续有动作的视频。而图生视频相当于给了AI一张可模仿的具体图片，生成的视频就会延续图片中的人脸特征，实现主角一致性。

他还表示，在实际场景中，图生视频的效果更符合用户预期，因为文字表达画面细节的能力有限，有图片作为参考，会对生成视频有所帮助，但当下也达不到商用的程度。直观上说，5秒是图生视频的上限，大于10秒可能意义就不大了，要么内容出现重复，要么结构扭曲质量下降。

目前很多宣称用AI进行全流程制作的影视短片，大部分采用的是图生视频或者视频到视频。

即梦的使用尾帧功能用的也是图生视频，「定焦」特意进行了尝试，结果如下:

在结合的过程中，人物出现了变形、失真。

Cyrus也表示，视频讲究连贯，很多AI视频工具支持图转视频也是通过单帧图片推测后续动作，至于推测得对不对，目前还是看运气。

据了解，文生视频在实现主角一致性上，各家也并非纯靠数据生成。张恒表示，大多数模型都是在原有底层DIT大模型的基础上，叠加各种技术，比如ControlVideo（哈工大和华为云提出的一种可控的文本-视频生成方法），从而加深AI对主角面部特征的记忆，使得人脸在运动过程中不会发生太大变化。

不过，目前都还在尝试阶段，即便做了技术叠加，也还没有完全解决人物一致性问题。

AI视频，为什么进化慢?

在AI圈，目前最卷的是美国和中国。

从《2023年全球最具影响力人工智能学者》（简称“AI2000学者”榜单）的相关报告可以看出，2020年-2023年全球“AI2000机构”4年累计的1071家机构中，美国拥有443家，其次是中国，有137家，从2023年“AI2000学者”的国别分布看，美国入选人数最多，共有1079人，占全球总数的54.0%，其次是中国，共有280人入选。

这两年，AI除了在文生图、文生音乐的方面取得较大进步之外，最难突破的AI视频也有了一些突破。

在近期举办的世界人工智能大会上，倚天资本合伙人乐元公开表示，视频生成技术在近两三年取得了远超预期的进步。新加坡南洋理工大学助理教授刘子纬认为，视频生成技术目前处于GPT-3时代，距离成熟还有半年左右的时间。

不过，乐元也强调，其技术水平还是不足以支撑大范围商业化，基于语言模型开发应用所使用的方法论和遇到的挑战，在视频相关的应用领域也同样适用。

年初Sora的出现震惊全球，它基于transformer架构的新型扩散模型DiT再做扩散、生成的技术突破，提高了图像生成质量和写实，使得AI视频取得了重大突破。Cyrus表示，目前国内外的文生视频，大多数都沿用的是类似技术。

图源/Sora官网

此刻，大家在底层技术上基本一致，虽然各家也以此为基础寻求技术突破，但更多卷的是训练数据，从而丰富产品功能。

用户在使用字节的即梦和Morph AI的Morph Studio时，可选择视频的运镜方式，背后原理便是数据集不同。

“以往各家在训练时使用的图片都比较简单，更多是对图片存在哪些元素进行标注，但没有交代这一元素用什么镜头拍摄，这也让很多公司发现了这一缺口，于是用3D渲染视频数据集补全镜头特征。”张恒表示，目前这些数据来自影视行业、游戏公司的效果图。

「定焦」也尝试了这一功能，但镜头变化不是很明显。

Sora们之所以比GPT、Midjourney们发展得慢，是因为又搭了一个时间轴，且训练视频模型比文字、图片更难。“现在能用的视频训练数据，都已经挖掘殆尽，我们也在想一些新办法制造一系列可以拿来训练的数据。”张恒说。

且每个AI视频模型都有自己擅长的风格，就像快手可灵做的吃播视频更好，因为其背后有大量这类数据支撑。

石榴AI创始人沈仁奎认为，AI视频的技术有Text to video（文本转视频），Image to video(图片转视频)，Video to video(视频转视频)，以及Avatar to video(数字人)，能定制形象和声音的数字人，已经运用到了营销领域，达到了商用程度，而文生视频还需要解决精准度和可控度问题。

此刻，无论是由抖音和博纳合作的AI科幻短剧《三星堆:未来启示录》，还是快手原创的AI奇幻短剧《山海奇镜之劈波斩浪》，更多是大模型公司主动找影视制作团队进行合作，有推广自家技术产品的需求，且作品也没有出圈。

在短视频领域，AI还有很长的路要走，干掉好莱坞了的说法更为时尚早。

（举报）