智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统

2024-11-04 15:39 189 阅读 0 评论 125 点赞

感谢靠谱客网友 HH_KK 的线索投递！

靠谱客 11月4日消息，智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。

在图像生成任务中，基于人类偏好评测，Emu3 优于 SD-1.5 与 SDXL 模型。在视觉语言理解任务中，对于 12 项基准测试的平均得分，Emu3 优于 LlaVA-1.6。在视频生成任务中，对于 VBench 基准测试得分，Emu3 优于 OpenSora 1.2。

智源发布原生多模态世界模型 emu3，宣称实现图像、文本、视频大一统

据介绍，Emu3 提供了一个强大的视觉 tokenizer，能够将视频和图像转换为离散 token。这些视觉离散 token 可以与文本 tokenizer 输出的离散 token 一起送入模型中。与此同时，该模型输出的离散 token 可以被转换为文本、图像和视频，为 Any-to-Any 的任务提供了更加统一的研究范式。

智源发布原生多模态世界模型 emu3，宣称实现图像、文本、视频大一统

▲ Emu3 生成的图像

Emu3 研究结果证明，下一个 token 预测可以作为多模态模型的一个强大范式，实现超越语言本身的大规模多模态学习，并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到 token 本身，能在大规模训练和推理中释放巨大的潜力。

目前 Emu3 已开源了关键技术和模型，靠谱客附链接如下：

代码：https://github.com/baaivision/Emu3
项目页面：https://emu.baai.ac.cn/
模型：https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，靠谱客所有文章均包含本声明。

点赞(125)

本文分类：人工智能

相关文章

（更新：消息人士称并非 RTX 5090）一印度尼西亚峇淡工厂首批显卡开机过测

（更新：消息人士称并非 RTX 5090）一印度尼西亚峇淡工厂首批显卡开机过测

微软 219 亿美元大订单在望，美国陆军要求 IVAS 头显单价低于 8 万美元

微软 219 亿美元大订单在望，美国陆军要求 IVAS 头显单价低于 8 万美元

高通放大招：为 Windows 11 AI+ PC 引入 Blender 等内容创作工具

高通放大招：为 Windows 11 AI+ PC 引入 Blender 等内容创作工具

博主 150 澳元淘到 10 块 GTX 1070 矿卡，“翻新”后 9 块可正常使用

博主 150 澳元淘到 10 块 GTX 1070 矿卡，“翻新”后 9 块可正常使用

智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统

智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统

高通“呼朋唤友”推进端侧 AI 新时代：腾讯混元部署 7B / 3B 模型、智谱适配优化 GLM-4V、网易升级《永劫无间》手游 AI 队友

高通“呼朋唤友”推进端侧 AI 新时代：腾讯混元部署 7B / 3B 模型、智谱适配优化 GLM-4V、网易升级《永劫无间》手游 AI 队友

RTX 4090 笔记本 0.37 秒直出大片：英伟达联手 MIT 清华祭出 Sana 架构，速度秒杀 FLUX

RTX 4090 笔记本 0.37 秒直出大片：英伟达联手 MIT 清华祭出 Sana 架构，速度秒杀 FLUX

研究发现 AI 工具对学生来说是“双刃剑”，需谨慎使用

研究发现 AI 工具对学生来说是“双刃剑”，需谨慎使用

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部