多模态2025:技术路线“神仙打架”,视频生成冲上云霄 一场大会,聚集了中国多模态大模型的“半壁江山”。智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热 多模态大模型 2025年06月28日 176 点赞 2 评论 266 浏览
字节跳动正式发布豆包视觉理解模型:1元可处理近300张高清图 在今天举办的火山引擎Force大会上,字节跳动正式发布豆包视觉理解模型,为企业提供极具性价比的多模态大模型能力。豆包视觉理解模型千tokens输入价格仅为3厘,一元钱就可处 多模态大模型 2024年12月21日 95 点赞 1 评论 143 浏览
GPT-4o再暴露「弱智」缺陷,大模型无一幸免,港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题 多模态大模型在听觉上,居然也出现了「9.119.8」的现象,音量大小这种简单问题都识别不了!港中文、斯坦福等大学联合发布的AV-Odyssey基准测试,包含26个视听任务,覆盖了7种 多模态大模型 2024年12月17日 115 点赞 1 评论 174 浏览
苹果多模态模型大升级!文本密集、多图理解,全能小钢炮 【新智元导读】近日,一向画风精致的「苹果牌AI」,也推出了升级版的多模态大模型,从1B到30B参数,涵盖密集和专家混合模型,密集文本、多图理解,多项能力大提升。多模态大 多模态大模型 2024年10月16日 135 点赞 2 评论 204 浏览
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」 最近的一系列研究表明,纯解码器生成模型可以通过训练利用下一个token预测生成有用的表征,从成功地生成多种模态的新序列,从文本、蛋白质、音频到图像,甚至是状态序列。能 多模态大模型 2024年06月26日 206 点赞 3 评论 312 浏览