蚂蚁集团旗下的百灵大模型系列于今日迎来重要更新,
技术亮点:混合架构与极致效率
混合线性架构: 通过底层的计算优化,模型展现了极佳的推理速度。在4卡 H20环境下,其推理速度最高可达340tokens/s。在 Prefill(预填充)吞吐指标上,更是达到了 Nemotron-3-Super 的2.2倍,大幅缩短了响应延迟。
出色的“智效比”: 研发团队在训练过程中对 Token 效率进行了深度校准。评测数据显示,完成同等质量的任务,
顶尖(SOTA)的水平。 目前,开发者已可通过 Hugging Face 和 ModelScope(魔搭社区)获取该模型的开源资源,进一步探索其在各类行业应用中的潜力。
发表评论取消回复