长文本、语音、视觉、结构化数据全覆盖，中国移动九天善智多模态大模型震撼发布

2024-10-16 07:54 93 阅读 0 评论 62 点赞

声明:本文来自于微信公众号机器之心，作者:机器之心，授权靠谱客转载发布。

善智者，动于九天之上。

善智者，启于十年之前。十年系统性人工智能创新，中国移动九天善智多模态基座大模型以其全栈国产化、复杂系统智能化的卓越性能，让 AI 不仅会 “作诗”，也要会 “做事”，还能做 “更复杂更具创造性的事”。

10月12日，在第十二届中国移动全球合作伙伴大会主论坛上，中国移动发布了最新的九天善智多模态基座大模型，全面解析了九天系列大模型的亮点能力、特色技术。

四大亮点:九天善智多模态大模型的强大功能解析

中国移动将新发布的多模态大模型命名为 “善智”，在人工智能高速发展的时代，平衡 “大善” 与 “大智” 至关重要。这一命名体现了中国移动追求技术卓越与社会责任并重的理念，使大模型不仅文理兼修、德艺双馨，更能普惠应用，进而创造人类文明新的福祉。

据了解，中国移动九天系列大模型包括九天善智多模态大模型、九天众擎语言大模型、九天智绘视觉大模型、九天语荷语音大模型、九天数童结构化数据大模型等，可以提供1.5B、3B、8B、13.9B、100B、200B 等不同参数量的模型版本，模型性能实现整体飞跃!

在国际竞赛中，中国移动九天模型表现可谓十分突出。不仅在2024年 INTERSPEECH 语音合成声码器赛道中获得国际第一名，也在2023年获得 CVPR VSS（视觉语义分割）赛道中视觉理解方面的第一名。

此外，大模型多项关键技术指标在国际主流榜单中取得优秀名次。根据最新测评数据，多任务语言理解能力在权威 BBH 榜单上名列第二名，图像内容理解对话、视频内容理解对话、文生视频分别在 MME-P 榜单、MVBench 榜单和 VBench 榜单位列第三名，代码生成在 MBPP 榜单位列第二名，数学推理排名第四，综合能力在司南 Opencompass 多模态模型评测榜单（闭源模型）名列前茅，平均分64.2。

长文本、全双工、机器视觉和结构化数据等多模态是走向通用智能的必经之路。这次九天善智多模态基座大模型的全面升级在这四个赛道均取得了不俗的技术突破:

长文本理解与生成，赋能产业态势感知

九天善智多模态基座大模型能够支持处理复杂的任务资料收集并深度解析给出专业报告，目前已拓展至128K 超长上下文的理解与生成。

长文本理解与生成

在本次大会主论坛上，九天善智多模态大模型展示了其基于可信数据的高效文档信息收集与秒级分析能力。该模型能够迅速提炼行业资料中的关键信息，并以直观的文字、柱状图、折线图等可视化形式生成通信产业月报。不仅如此，它还能解读国内外及地方政府发布的相关政策，并通过自动化专家访谈机制不断完善报告内容，确保报告修订过程透明可追溯，助力企业实现高效决策。

全双工语音交互，实现 “边听边说” 的自然对话

九天善智多模态大模型支持全双工语音交互，即使用户随时打断，也能保持对话的连贯性和一致性，实现自然流畅的交互体验。这一特性显著增强了模型与人类交流的自然度和流畅性，使对话更加贴近日常交流方式。目前，九天大模型不仅支持多模态输入与生成，还能实现实时的语音到图片转换;语音指令即可触发联网搜索并实时总结信息。用户可以从天气查询无缝切换至美食推荐，此外，它还能轻松管理日程，化身您的超级小助手，让生活变得更加便捷高效。

在现场视频演示中，移动员工通过全双工语音交互进行日程管理，实现赴广州参加中国移动全球合作伙伴大会的机票预定、会议议程问答和电话提醒多种场景服务，演示中，工作人员还即兴打断，询问了股市的实时状况，并同时生成了一张广州塔的夜景图留作纪念，展现了无缝切换话题与即时响应的卓越能力。

视频与图像处理的双重飞跃，成为视觉创作 “魔术师”

凭借自主研发的 JTVLM 架构，中国移动创新性地融合了多模态深度表征、精细化特征对齐与多层次自回归优化策略，引入 P-LoRA 跨模态训练方案，使大模型在图像感知、检测、理解、推理等多样化下游任务中展现卓越性能。此外，通过自研扩散 Transformer 去噪网络与3D VAE 重建模型，大幅提升了视频画质、连续性、文本与画面一致性等核心指标，实现全方位的技术突破。

在主论坛上，九天善智多模态基座大模型通过 “广州早茶” 和 “小猫和小狗玩，猫脸部特写” 两个提示词，与业界其他模型进行了文生图表现对比。结果显示，九天模型展现了更为复杂的视角和构图能力，光线光影协调运用能够在符合美学前提下捕捉更多关键细节，在指令遵循方面也有更优异的表现。

在文生视频方面，不论是包含 “广州早茶店、小蛮腰、烟花” 等元素的城市宣传片，还是 “蓝天白云、森林、小溪、矿泉水” 元素的商业广告片，抑或是 “珊瑚礁、鱼群” 元素的海洋生态环保视频，九天善智多模态基座大模型能够灵活运镜，通过特写、近景、中景和远景的充分调度呈现光影流动，让多个主题画面和谐一致，同时生成配乐，让创意无限延伸，不断突破想象边界。

中国移动此次发布的多模态大模型不仅体现在语言到视觉，也能从视觉到语言，具备高效精准、多场景识别、动态追踪等诸多能力，能够精准理解分析生产生活等丰富场景。在现场视频中，它可以多种语言解读视频里多个人物的动作、表情、交互状态和环境，精准捕捉到家庭聚会中各个成员的 “微笑、亲吻动作、拍照姿势”，还能准确判断工人的爬塔动作，以及工人着装是否符合要求等。

结构化数据能力，实现业务精准分析预测

九天善智多模态基座大模型创新实现跨领域结构化数据通用表征建模、大模型多任务训练和推理框架，覆盖通信、交通、工业、金融营销、医疗等11+ 行业领域，已经在多个行业深度使用。在主论坛上，九天善智多模态基座大模型对长沙橘子洲头的通信数据进行理解分析、可视化展示和未来趋势推理预测，并在仿真系统呈现了预测数据的真实覆盖情况。

目前，结构化数据能力已经支持通信、交通、能源行业等流量预测、指标异常检测、用户营销推荐和能耗优化等场景的典型任务。即便在零样本或者少样本的情况下同样能出色实现跨域应用，服务复杂系统智能化，为业务决策提供了前瞻性依据，助力产业及时、精准地调整策略。借助其强大支持，产业就像是装上了强大的数据引擎，迈着坚实的步伐从数字化走向智能化。

技术揭秘:九天善智背后的国产化与体系化 AI 创新

九天善智多模态基座大模型的超强实力，得益于中国移动独有的技术秘籍和实战经验。

在国产化方面，为了摆脱 “缺芯少魂” 的问题，九天大模型的训练和推理已经全面转向了国产，实现从芯片、算法到框架的全栈国产化，万卡训练能力可以做到连续稳定训练时长超过480小时，并支持在三类训练芯片算力集群间的平滑转化和续训，在推理方面，目前已对11个厂商的17款芯片进行适配、迁移和测试及标准拉齐。

在科研创新方面，原创性提出体系化人工智能（Holistic AI）技术以提供泛在可控的社会级智能服务，原创性提出体系化人工智能(Holistic AI)技术，主要研究对 AI 技术进行体系化重构所需的理论、技术、机制、范式和框架，基于 AI 服务大闭环、AI 能力原子化重构、网络原生 AI 及安全可信 AI 等技术特征，利用无处不在的网络和强大的算力，可以随时调整和分配 AI 的各种技能，应对不断变化的需求，就像在繁忙的城市中灵活调度交通资源，确保每个地方都能得到及时高效的服务。

在复杂系统智能化方面，中国移动深入金融、交通、能源、制造等10+ 个行业，全自研30个横跨多领域的行业大模型，加快推动各个行业智能化应用在人工智能驱动下由微观走向宏观，从复杂系统典型的混沌性走向清晰，形成面向经济社会各领域的赋能辐射圈。目前，九天海算政务大模型已与黑龙江合力打造全国首例政务领域综合搜索平台，营造便利政务环境，充分解决了在省、市、县等不同级别政府政务应用中的集约化赋能挑战;九天医疗大模型已在北京协和、广州120等龙头医疗机构落地部署，全面赋能升级包含医疗辅助决策、病历文书生成、智能随访等各类医疗场景;与头部能源化工企业合作研发国内首个能源化工行业大模型，孵化 “AI + 油气”“AI + 炼化”“AI + 运营” 等标杆示范应用，推动 “AI+” 行动走深向实。

战略布局:中国移动如何打造行业领先的 AI 生态

高性能基座大模型是如何炼成的?这首先离不开中国移动始终将人工智能作为公司战略转型的重要方向。

十年间，中国移动组建了由 IEEE Fellow、中国移动集团首席科学家冯俊兰博士领衔的2000+ 人才雁阵，引入超150个海内外 TOP 高校 AI 专业博士，牵头承担了开放创新平台等20+ 项国家 AI 重大重点专项任务，申请超过930项专利，发表160余篇顶会顶刊论文，获顶级 AI 竞赛 TOP5奖项19项，主导了国内外86% 的网络智能化标准，成为全球公认最领先的自智网络运营商，同时也是国资央企在人工智能领域的骨干力量。

基于生态优势，中国移动设立 “九天揽月” 合作计划，通过联合研发、成果引进、资本合作等多种方式引入业界优质能力，以科技部支持建设的 “智慧网络国家新一代人工智能开放创新平台” 和国资委、发改委支持建设的 “中央企业人工智能协同创新平台” 两大国家级重大平台为依托，与产业共同攻关大模型核心技术、共建先进大模型基础设施、共创行业大模型和相关标准，加快推动基于大模型的规模化行业应用蓬勃发展。

可以发现，中国移动在人工智能这条道路上，要比我们想象的走得更远。它早已不是一家单纯的通信运营商，而是通过构建多模态基座大模型，打造全要素 “AI+” 服务运营体系，成为通用人工智能时代的供给者、汇聚者和运营者。

（举报）