国产算力新突破！摩尔线程×硅基流动在MTT S5000上实现DeepSeek V3 671B满血版高效推理，单卡性能逼近国际顶尖水平

2026-01-22 20:36 166 阅读 0 评论 110 点赞

国产AI芯片与大模型的协同优化迎来关键里程碑。近日，**摩尔线程与硅基流动联合宣布，基于国产GPU MTT S5000，成功完成对千亿参数大模型 DeepSeek V3 671B “满血版”的深度适配与性能验证**。通过创新应用FP8（ 8 位浮点）低精度推理技术，实测性能表现亮眼：**单卡 Prefill（预填充）吞吐量突破4000 tokens/秒，Decode（解码）吞吐超1000 tokens/秒**，整体推理速度已逼近国际主流高端AI加速卡水平。

这一成果意义重大。DeepSeek V3 671B作为国内领先的开源大模型，参数规模庞大、推理负载极高，此前多依赖英伟达A100/H100 等高端GPU部署。此次在**完全国产化硬件平台**上实现高效运行，不仅验证了摩尔线程MTT S5000 在大模型推理场景下的真实能力，更标志着国产AI算力生态正从“能跑”迈向“高效跑”的新阶段。

关键技术突破在于FP8 低精度推理的深度优化。FP8 在保持模型精度损失极小的前提下，可显著提升计算吞吐、降低显存占用与功耗。摩尔线程与硅基流动联合完成了从底层驱动、算子库到推理引擎的全栈调优，使MTT S5000 充分发挥FP8 硬件加速潜力，有效支撑了大模型高并发、低延迟的推理需求。

对于行业而言，这意味着国产替代路径进一步清晰：**高性能大模型不再必须绑定海外高端芯片**。在当前全球算力供应链不确定性的背景下，MTT S5000 + DeepSeek V3 的组合为金融、政务、能源等关键领域提供了高性价比、高安全性的本土化AI部署选项。

尽管在绝对峰值性能或软件生态成熟度上，国产GPU与国际顶尖产品仍有差距，但此次实测数据表明，**在特定高价值场景下，国产方案已具备实用化竞争力**。随着软硬件协同优化持续深入，中国AI基础设施的自主可控能力正加速成型——从“可用”到“好用”，只差一次又一次这样的实测突破。