谷歌推全新AI视频生成模型Veo，可创建高质量60秒、1080p视频

2024-05-28 02:10 339 阅读 0 评论 224 点赞

划重点:
- 谷歌发布了名为 Veo 的生成式 AI 视频模型，可以创建高质量、逼真的1080p 视频片段。
- Veo 支持文本到视频、视频到视频以及图像到视频的转换，能够应用于多种电影风格。
- 谷歌与艺术家 Donald Glover 合作测试 Veo 的新功能，展示出令人惊叹的视频生成能力。

靠谱客（kaopuke.com）5月28日消息:谷歌在其深度学习 AI 部门 DeepMind 的研究人员发布了一款名为 Veo 的全新式 AI 视频模型，能够创建“超过60秒的高质量、1080p 剪辑”，“从照片写实主义到超现实主义和动画，它可以应对一系列电影风格”，在逼真度和视觉果方面达到了令人惊叹的水平。

Veo 的目标是帮助各类用户创作视频，不论是经验富的电影制片人、有抱负的创作者，还是渴望分享知识的教育工作者，都可以通过 Veo 实现的故事叙述方式。

Veo 支持文本到视频、视频到视频以及图像到视频的转换，能够适各电影风格，从写实主义到超现实主义和动画。

谷歌与艺术家 Donald Glover 合作，通过他的创工作室 Gilga 测试了 Veo 的一些新功能。DeepMind 在 YouTube 和 X 平台上发布了一些由 V 生成的视频和提示，包括霓虹城市、真实的海洋水母、牛仔骑马、太空飞船穿越虚空和真的人物场景等。这些视频几乎无法与真人拍摄或专业的计算机生成动画区分开，而且都是由文本提示生成的。

图片来自谷歌官方用Veo生成视频截图

Veo 不仅可以根据文本提示生成视频，还可以快速编辑 AI 生成的视频用户上传的片段，甚至是预先录制的真人镜头。当给定一个输入视频和编辑命令时，比如在海线的航拍画面中添加皮划艇，Veo 可以应用这个命令到初始视频，并创建一个新的编辑后的视频。此，Veo 还能够实现视频帧之间的一致性，避免一些奇怪和令人不安的转换瑕疵，这得益于其采用了先进的潜在扩散变压器技术，可以减少这些不一致之处使角色、物体和风格保持在现实生活中的位置。

为了提高生成视频的质量，谷歌在练数据的每个视频标题中添加了更多细节，并使用高质量、压缩表示视频（也称为潜在变量），从而高了效率。此外，所有的 Veo 视频都嵌入了 SynthID，即谷歌的内容凭证跟踪数字水印以确保可以被有识别能力的机构识别为由 AI 生成。

Veo 是 DeepMind 多年研究的结晶，建在之前的研究成果基础上，包括生成查询网络（GQN）、DVD-GAN、Imagen-Video、Phenaki、ALT、VideoPoet 和 Lumiere 等。目前，谷歌并没有公开发布 Veo，只提供给少数特定的创作者私人预览中使用。未来，谷歌还计划将 Veo 的部分功能引入 YouTube Shorts 和其他产品中。

（举报）