美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5美团推出新一代智能推理系统LongCat-Flash-Thinking

2025-10-11 17:45 274 阅读 0 评论 181 点赞

美团推出新一代智能推理系统LongCat-Flash-Thinking

9月23日，美团技术团队宣布推出全新智能推理系统LongCat-Flash-Thinking，该系统在多项专业领域测试中展现出卓越性能。

美团技术团队发布的新一代智能推理系统

据介绍，这款新系统在前代产品的基础上进行了全面升级，特别强化了在复杂任务处理方面的能力。测试数据显示，该系统在逻辑推理、数学运算、编程等多个专业领域的表现已达到行业领先水平。

核心性能表现

综合推理能力

在ARC-AGI基准测试中，该系统以50.3分的成绩超越多个知名商业系统，展现出强大的结构化逻辑处理能力。

数学运算能力

在HMMT和AIME等专业数学测试中，该系统取得了突破性进展，其解决复杂多步骤数学问题的能力已达到行业先进水平。

编程处理能力

在LiveCodeBench测试中以79.4分领先同类开源系统，在OJBench测试中也取得40.7分的好成绩，显示出处理高难度编程问题的出色能力。

智能工具应用

在2-Bench测试中获得74.0分，刷新了开源系统的记录，在多项专业基准测试中均表现出色。

形式化推理能力

在MiniF2F-test基准测试中，该系统在多个评估维度均保持领先优势，特别是在结构化证明生成方面表现突出。

目前，该系统的相关技术资料已在多个开源平台发布，用户可通过官方网站获取更多信息并进行体验。

（举报）

相关推荐

关键词：

高效推理模型
LongCat-Flash-Thinking
开源模型
智能体工具调用

荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking；阿里开源Wan-Animate模型革新AI视频生成；字节跳动发布豆包翻译模型，支持28种语言互译；华为与浙大联合推出安全大模型DeepSeek-R1-Safe；阿里云即将发布跨模态模型Qwen3-Omni；xAI推出计算成本降低98%的Grok4Fast模型；YouTube发布多项AI创作辅助功能；IBM推出轻量级文档处理模型Granite-Docling-258M；中科院发布类脑大模型SpikingBrain实现百倍速度突破；OpenAI将推出仅限Pro用户的计算密集型新功能。

AI日报美团大模型 LongCat-Flash-Thinking
Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

Reviews.ai是一个消费者反馈聚合平台，帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析，通过AI驱动功能（如按需报告、主题分类和智能代理）提升产品与服务。近期从Review Monitor更名后，团队迁移至DigitalOcean云平台，解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成，仅用数周，成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器，支持灵活扩展。未来计划利用GPU Droplets增强AI能力，进一步优化大型语言模型处理效率。

消费者反馈品牌洞察评论分析
腾讯云马文霜：Cloud Mate：助力企业高效管云、用云，让云上业务坚如磐石

9月17日，腾讯云在2025全球数字生态大会上宣布智算全面升级，推出面向Agent的AI基础设施解决方案。腾讯云副总裁李力强调“同源同构”为核心原则，通过统一技术架构支撑自研业务与外部客户，实现产品标准化与全球化服务一致性。升级方案包括Agent Runtime云沙箱、Cloud Mate智能运维体及全链路安全能力，旨在提升模型推理效率、工具集成灵活性和系统稳定性，助力企业降低AI应用门槛。李力指出，未来两年AI+Agent部署将大幅增长，腾讯云已服务国内90%的大模型厂商，并为多行业提供高效智算支持。

腾讯云智算 Agent Infra
Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

9月24日，2025云栖大会开幕，阿里通义千问旗舰模型Qwen3-Max重磅亮相，性能超越GPT-5、Claude+Opus 4等，跻身全球前三。该模型包含指令和推理两大版本，预训练数据量达36T tokens，总参数超万亿，具备极强编程和工具调用能力。在SWE-Bench测试中，指令版斩获69.6分全球第一；Tau2-Bench工具调用测试达74.8分，超越同类模型。推理增强版Qwen3-Max-Thinking在数学推理测试中获满分，国内首次突破。通义千问系列已实现全尺寸覆盖，包含三百多个模型。即日起，用户可在QwenChat免费体验Qwen3-Max，或通过阿里云百炼平台调用API服务。

云栖大会 Qwen3-Max 通义千问
性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

百度发布超轻量级文字识别模型PP-OCRv5，仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型，尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别，适用于教育、医疗、法律等多行业数字化需求，累计下载量超900万，是GitHub上唯一Star数超5万的中国OCR项目。

PP-OCRv5 轻量级OCR 文字识别模型
易鑫发布Agentic大模型，破解汽车金融风控与效率痛点

9月12日，易鑫集团在“IT Value Summit数字价值年会”上入选“2025创新场景年度AI应用TOP榜”，成为汽车金融科技领域唯一上榜企业。首席科技官贾志峰指出，易鑫以AI为核心驱动力，通过自研大模型“智鑫多维”等技术，显著提升风控水平与融资通过率，推动行业智能化转型。平台已连接全国4.2万家经销商及上百家金融机构，服务覆盖牧民、基层员工等多元群体，体现技术普惠价值。未来将持续加大科技创新投入，深化国内普惠金融服务，并探索技术出海，助力全球汽车金融行业迈向更高水平智能化。此次上榜不仅是对其技术实力的认可，更反映出行业正加速拥抱智能化变革。

AI应用汽车金融金融科技
OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

OpenAI宣布推出新一代AI编程模型GPT-5-Codex，其最大亮点是创新的动态时间分配系统。不同于传统AI追求秒级响应”，该模型可根据任务复杂度灵活调整处理时长，从数秒到7小时不等，以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称，传统模型在任务初期即固定计算资源，而GPT-5-Codex能实时评估需求：动态决定加速推进、暂停语法核�

GPT-5-Codex 动态时间分配 AI编程模型
两步生成企业级Agent，华为云Versatile平台打通智能体落地最后一公里

华为在2025全联接大会上发布企业级智能体平台Versatile，通过极简流程实现企业级Agent开发，仅需输入业务逻辑与流程图即可完成，效率提升10倍。同时公布昇腾芯片未来三年规划，将陆续发布多款高性能芯片。华为云还推出超节点产品Atlas系列，算力全球领先。CloudMatrix384 AI+Token推理服务全面上线，吞吐量达2400TPS，性能远超业界水平。该平台已与多个行业合作，助力企业构建数字化AI产线，实现业务效率飞速提升。

华为企业级智能体平台 Versatile
女子用ChatGPT选号中百万大奖全部捐出帮助有需要的人

美国弗吉尼亚州女子卡丽爱德华为非经常购彩者，近日通过手机向ChatGPT询问彩票号码建议，AI提供几组数字供参考。她购买后幸运中得15万美元（约106万元人民币）大奖。领奖时她当场宣布将全部奖金捐出，帮助有需要的人，并表示自己已足够幸运，希望以此鼓励其他中奖者回馈社会。

ChatGPT 彩票中奖 AI推荐
StarRocks Connect 2025 圆满落幕：AI Native 时代，数据分析未来已来

StarRocks Connect 2025峰会圆满落幕，聚焦AI Native时代的数据分析未来。活动汇聚全球开发者与行业专家，分享StarRocks在复杂业务场景中的实践，探讨技术演进方向。从性能引擎到AI原生平台，StarRocks 4.0将支持多智能体协作框架，提升数据分析效率。多家企业展示应用案例，覆盖电商、金融、旅游等领域，验证了其高性能与成本优势。开源精神推动技术创新，共同探索数据智能的无限可能。

StarRocks 数据分析 AI

今日大家都在搜的词：

人生重开模拟器
显卡天梯图
国内云服务器哪家好
高通骁龙处理器排名
手机CPU天梯图
单反相机天梯图
安兔兔手机跑分排行榜
笔记本电脑排行榜

热文

3 天
7天

1

微信新功能上线：长按图片“搜一搜” 检索购物转表一键达
2

AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布
3

理想i6正式上市：首销直减1万限时售价23.98万元
4

李想感谢雷军夸理想： “67Y”一起加电
5

雷军大方推荐友商产品：不买YU7 可以考虑Model Y和理想i6
6

鸿蒙智行：尊界S800上市4个月大定超1.5万台
7

小米17系列开售5分钟破25年国产手机首销纪录
8

小米17/Pro/Pro Max今日首销：4499元起
9

小米17破今年国产手机首销纪录卢伟冰：需求远超预期
10

5299元！小米17标准版新增16GB+1TB版本：10月5日发售

1

微信新功能上线：长按图片“搜一搜” 检索购物转表一键达
2

华为WATCH GT 6/Pro系列手表发布售价1488元起
3

AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推
4

AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推
5

AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问
6

AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布
7

小米SU7 Ultra原型车1:43合金车模发布：售价149元
8

小米非常非常缺人上热搜雷军谈小米成功秘诀
9

499元！小米手环10耀影金特别版发布
10

雷军称没什么好犹豫的：50岁正是闯的年纪

站长商机

本文分类：高效推理模型

美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5美团推出新一代智能推理系统LongCat-Flash-Thinking

美团推出新一代智能推理系统LongCat-Flash-Thinking

核心性能表现

综合推理能力

数学运算能力

编程处理能力

智能工具应用

形式化推理能力

荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

腾讯云马文霜：Cloud Mate：助力企业高效管云、用云，让云上业务坚如磐石

Qwen3-Max成阿里通义“地表最强”：性能超GPT5 数学推理直接满分

性能超越GPT-4o及Qwen2.5-VL，百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

易鑫发布Agentic大模型，破解汽车金融风控与效率痛点

OpenAI发布GPT-5-Codex：可完成7小时单次编程任务

两步生成企业级Agent，华为云Versatile平台打通智能体落地最后一公里

女子用ChatGPT选号中百万大奖 全部捐出帮助有需要的人

StarRocks Connect 2025 圆满落幕：AI Native 时代，数据分析未来已来

今日大家都在搜的词：

热文

微信新功能上线：长按图片“搜一搜” 检索购物转表一键达

AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布

理想i6正式上市：首销直减1万 限时售价23.98万元

李想感谢雷军夸理想： “67Y”一起加电

雷军大方推荐友商产品：不买YU7 可以考虑Model Y和理想i6

鸿蒙智行：尊界S800上市4个月大定超1.5万台

小米17系列开售5分钟 破25年国产手机首销纪录

小米17/Pro/Pro Max今日首销：4499元起

小米17破今年国产手机首销纪录 卢伟冰：需求远超预期

5299元！小米17标准版新增16GB+1TB版本：10月5日发售

微信新功能上线：长按图片“搜一搜” 检索购物转表一键达

华为WATCH GT 6/Pro系列手表发布 售价1488元起

AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推

AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推

AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问

AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布

小米SU7 Ultra原型车1:43合金车模发布：售价149元

小米非常非常缺人上热搜 雷军谈小米成功秘诀

499元！小米手环10耀影金特别版发布

雷军称没什么好犹豫的：50岁正是闯的年纪

站长商机

相关文章

评论列表共有 0 条评论

发表评论取消回复

女子用ChatGPT选号中百万大奖全部捐出帮助有需要的人

理想i6正式上市：首销直减1万限时售价23.98万元

小米17系列开售5分钟破25年国产手机首销纪录

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

华为WATCH GT 6/Pro系列手表发布售价1488元起

小米非常非常缺人上热搜雷军谈小米成功秘诀