多模态2025:技术路线“神仙打架”,视频生成冲上云霄 一场大会,聚集了中国多模态大模型的“半壁江山”。智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热 多模态大模型 2025年06月28日 154 点赞 2 评论 233 浏览
字节跳动正式发布豆包视觉理解模型:1元可处理近300张高清图 在今天举办的火山引擎Force大会上,字节跳动正式发布豆包视觉理解模型,为企业提供极具性价比的多模态大模型能力。豆包视觉理解模型千tokens输入价格仅为3厘,一元钱就可处 多模态大模型 2024年12月21日 71 点赞 1 评论 107 浏览
GPT-4o再暴露「弱智」缺陷,大模型无一幸免,港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题 多模态大模型在听觉上,居然也出现了「9.119.8」的现象,音量大小这种简单问题都识别不了!港中文、斯坦福等大学联合发布的AV-Odyssey基准测试,包含26个视听任务,覆盖了7种 多模态大模型 2024年12月17日 90 点赞 1 评论 136 浏览
苹果多模态模型大升级!文本密集、多图理解,全能小钢炮 【新智元导读】近日,一向画风精致的「苹果牌AI」,也推出了升级版的多模态大模型,从1B到30B参数,涵盖密集和专家混合模型,密集文本、多图理解,多项能力大提升。多模态大 多模态大模型 2024年10月16日 115 点赞 1 评论 174 浏览
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」 最近的一系列研究表明,纯解码器生成模型可以通过训练利用下一个token预测生成有用的表征,从成功地生成多种模态的新序列,从文本、蛋白质、音频到图像,甚至是状态序列。能 多模态大模型 2024年06月26日 171 点赞 2 评论 259 浏览
多模态大模型Reka Core发布 性能与GPT-4相媲美 RekaCore是一款最新发布的多模态大型语言模型,其性能可与GPT-4相媲美,甚至在某些方面超越了现有的前沿模型。这一技术突破为人工智能领域带来了新的里程碑,特别是在图像、 多模态大模型 2024年05月03日 139 点赞 2 评论 210 浏览
轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便 一个可以自动分析PDF、网页、海报、Excel图表内容的大模型,对于打工人来说简直不要太方便。上海AILab,香港中文大学等研究机构提出的InternLM-XComposer2-4KHD模型让这成为 多模态大模型 2024年04月30日 114 点赞 1 评论 172 浏览