美团推出新一代智能推理系统LongCat-Flash-Thinking

9月23日,美团技术团队宣布推出全新智能推理系统LongCat-Flash-Thinking,该系统在多项专业领域测试中展现出卓越性能。

美团发布新一代智能推理系统

美团技术团队发布的新一代智能推理系统

据介绍,这款新系统在前代产品的基础上进行了全面升级,特别强化了在复杂任务处理方面的能力。测试数据显示,该系统在逻辑推理、数学运算、编程等多个专业领域的表现已达到行业领先水平。

核心性能表现

系统性能对比图表

综合推理能力

在ARC-AGI基准测试中,该系统以50.3分的成绩超越多个知名商业系统,展现出强大的结构化逻辑处理能力。

数学运算能力

在HMMT和AIME等专业数学测试中,该系统取得了突破性进展,其解决复杂多步骤数学问题的能力已达到行业先进水平。

编程处理能力

在LiveCodeBench测试中以79.4分领先同类开源系统,在OJBench测试中也取得40.7分的好成绩,显示出处理高难度编程问题的出色能力。

智能工具应用

在2-Bench测试中获得74.0分,刷新了开源系统的记录,在多项专业基准测试中均表现出色。

形式化推理能力

在MiniF2F-test基准测试中,该系统在多个评估维度均保持领先优势,特别是在结构化证明生成方面表现突出。

目前,该系统的相关技术资料已在多个开源平台发布,用户可通过官方网站获取更多信息并进行体验。

(举报)

  • 相关推荐
  • AI日报:美团发布推理大模型LongCat-Flash-Thinking;阿里Wan-Animate开源;字节推豆包翻译大模型

    AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking;阿里开源Wan-Animate模型革新AI视频生成;字节跳动发布豆包翻译模型,支持28种语言互译;华为与浙大联合推出安全大模型DeepSeek-R1-Safe;阿里云即将发布跨模态模型Qwen3-Omni;xAI推出计算成本降低98%的Grok4Fast模型;YouTube发布多项AI创作辅助功能;IBM推出轻量级文档处理模型Granite-Docling-258M;中科院发布类脑大模型SpikingBrain实现百倍速度突破;OpenAI将推出仅限Pro用户的计算密集型新功能。

    ​AI日报 ​美团大模型 ​LongCat-Flash-Thinking
  • Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

    Reviews.ai是一个消费者反馈聚合平台,帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析,通过AI驱动功能(如按需报告、主题分类和智能代理)提升产品与服务。近期从Review Monitor更名后,团队迁移至DigitalOcean云平台,解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成,仅用数周,成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器,支持灵活扩展。未来计划利用GPU Droplets增强AI能力,进一步优化大型语言模型处理效率。

    ​消费者反馈 ​品牌洞察 ​评论分析
  • 腾讯云马文霜:Cloud Mate:助力企业高效管云、用云,让云上业务坚如磐石

    9月17日,腾讯云在2025全球数字生态大会上宣布智算全面升级,推出面向Agent的AI基础设施解决方案。腾讯云副总裁李力强调“同源同构”为核心原则,通过统一技术架构支撑自研业务与外部客户,实现产品标准化与全球化服务一致性。升级方案包括Agent Runtime云沙箱、Cloud Mate智能运维体及全链路安全能力,旨在提升模型推理效率、工具集成灵活性和系统稳定性,助力企业降低AI应用门槛。李力指出,未来两年AI+Agent部署将大幅增长,腾讯云已服务国内90%的大模型厂商,并为多行业提供高效智算支持。

    ​腾讯云智算 ​Agent ​Infra
  • Qwen3-Max成阿里通义“地表最强”:性能超GPT5 数学推理直接满分

    9月24日,2025云栖大会开幕,阿里通义千问旗舰模型Qwen3-Max重磅亮相,性能超越GPT-5、Claude+Opus 4等,跻身全球前三。该模型包含指令和推理两大版本,预训练数据量达36T tokens,总参数超万亿,具备极强编程和工具调用能力。在SWE-Bench测试中,指令版斩获69.6分全球第一;Tau2-Bench工具调用测试达74.8分,超越同类模型。推理增强版Qwen3-Max-Thinking在数学推理测试中获满分,国内首次突破。通义千问系列已实现全尺寸覆盖,包含三百多个模型。即日起,用户可在QwenChat免费体验Qwen3-Max,或通过阿里云百炼平台调用API服务。

    ​云栖大会 ​Qwen3-Max ​通义千问
  • 性能超越GPT-4o及Qwen2.5-VL,百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度第一

    百度发布超轻量级文字识别模型PP-OCRv5,仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型,尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别,适用于教育、医疗、法律等多行业数字化需求,累计下载量超900万,是GitHub上唯一Star数超5万的中国OCR项目。

    ​PP-OCRv5 ​轻量级OCR ​文字识别模型
  • 易鑫发布Agentic大模型,破解汽车金融风控与效率痛点

    9月12日,易鑫集团在“IT Value Summit数字价值年会”上入选“2025创新场景年度AI应用TOP榜”,成为汽车金融科技领域唯一上榜企业。首席科技官贾志峰指出,易鑫以AI为核心驱动力,通过自研大模型“智鑫多维”等技术,显著提升风控水平与融资通过率,推动行业智能化转型。平台已连接全国4.2万家经销商及上百家金融机构,服务覆盖牧民、基层员工等多元群体,体现技术普惠价值。未来将持续加大科技创新投入,深化国内普惠金融服务,并探索技术出海,助力全球汽车金融行业迈向更高水平智能化。此次上榜不仅是对其技术实力的认可,更反映出行业正加速拥抱智能化变革。

    ​AI应用 ​汽车金融 ​金融科技
  • OpenAI发布GPT-5-Codex:可完成7小时单次编程任务

    OpenAI宣布推出新一代AI编程模型GPT-5-Codex,其最大亮点是创新的动态时间分配系统。 不同于传统AI追求秒级响应”,该模型可根据任务复杂度灵活调整处理时长,从数秒到7小时不等,以更接近人类专家的决策方式优化代码质量。 GPT-5-Codex产品负责人亚历山大恩比里科斯解释称,传统模型在任务初期即固定计算资源,而GPT-5-Codex能实时评估需求:动态决定加速推进、暂停语法核�

    ​GPT-5-Codex ​动态时间分配 ​AI编程模型
  • 两步生成企业级Agent,华为云Versatile平台打通智能体落地最后一公里

    华为在2025全联接大会上发布企业级智能体平台Versatile,通过极简流程实现企业级Agent开发,仅需输入业务逻辑与流程图即可完成,效率提升10倍。同时公布昇腾芯片未来三年规划,将陆续发布多款高性能芯片。华为云还推出超节点产品Atlas系列,算力全球领先。CloudMatrix384 AI+Token推理服务全面上线,吞吐量达2400TPS,性能远超业界水平。该平台已与多个行业合作,助力企业构建数字化AI产线,实现业务效率飞速提升。

    ​华为 ​企业级智能体平台 ​Versatile
  • 女子用ChatGPT选号中百万大奖 全部捐出帮助有需要的人

    美国弗吉尼亚州女子卡丽爱德华为非经常购彩者,近日通过手机向ChatGPT询问彩票号码建议,AI提供几组数字供参考。她购买后幸运中得15万美元(约106万元人民币)大奖。领奖时她当场宣布将全部奖金捐出,帮助有需要的人,并表示自己已足够幸运,希望以此鼓励其他中奖者回馈社会。

    ​ChatGPT ​彩票中奖 ​AI推荐
  • StarRocks Connect 2025 圆满落幕:AI Native 时代,数据分析未来已来

    StarRocks Connect 2025峰会圆满落幕,聚焦AI Native时代的数据分析未来。活动汇聚全球开发者与行业专家,分享StarRocks在复杂业务场景中的实践,探讨技术演进方向。从性能引擎到AI原生平台,StarRocks 4.0将支持多智能体协作框架,提升数据分析效率。多家企业展示应用案例,覆盖电商、金融、旅游等领域,验证了其高性能与成本优势。开源精神推动技术创新,共同探索数据智能的无限可能。

    ​StarRocks ​数据分析 ​AI

今日大家都在搜的词:

  • 人生重开模拟器
  • 显卡天梯图
  • 国内云服务器哪家好
  • 高通骁龙处理器排名
  • 手机CPU天梯图
  • 单反相机天梯图
  • 安兔兔手机跑分排行榜
  • 笔记本电脑排行榜

热文

  • 3 天
  • 7天
  • 1

    微信新功能上线:长按图片“搜一搜” 检索购物转表一键达

  • 2

    AI日报:京东物流推出超脑大模型2.0;DeepSeek V3.1终结版发布

  • 3

    理想i6正式上市:首销直减1万 限时售价23.98万元

  • 4

    李想感谢雷军夸理想: “67Y”一起加电

  • 5

    雷军大方推荐友商产品:不买YU7 可以考虑Model Y和理想i6

  • 6

    鸿蒙智行:尊界S800上市4个月大定超1.5万台

  • 7

    小米17系列开售5分钟 破25年国产手机首销纪录

  • 8

    小米17/Pro/Pro Max今日首销:4499元起

  • 9

    小米17破今年国产手机首销纪录 卢伟冰:需求远超预期

  • 10

    5299元!小米17标准版新增16GB+1TB版本:10月5日发售

  • 1

    微信新功能上线:长按图片“搜一搜” 检索购物转表一键达

  • 2

    华为WATCH GT 6/Pro系列手表发布 售价1488元起

  • 3

    AI日报:接入MJ!夸克发布造点AI;Wan2.5-Preview发布;可灵推

  • 4

    AI日报:阿里推多模态模型Qwen3-Omni;谷歌推出AP2协议;百度推

  • 5

    AI日报:生数科技推出Vidu Q2;火山引擎推出炉米Lumi;通义千问

  • 6

    AI日报:京东物流推出超脑大模型2.0;DeepSeek V3.1终结版发布

  • 7

    小米SU7 Ultra原型车1:43合金车模发布:售价149元

  • 8

    小米非常非常缺人上热搜 雷军谈小米成功秘诀

  • 9

    499元!小米手环10耀影金特别版发布

  • 10

    雷军称没什么好犹豫的:50岁正是闯的年纪

点赞(74)

评论列表共有 0 条评论

立即
投稿
返回
顶部