蚂蚁集团旗下的百灵大模型系列于今日迎来重要更新,image.png

技术亮点:混合架构与极致效率

极高的运行效率上:

  • 混合线性架构: 通过底层的计算优化,模型展现了极佳的推理速度。在4卡 H20环境下,其推理速度最高可达340tokens/s。在 Prefill(预填充)吞吐指标上,更是达到了 Nemotron-3-Super 的2.2倍,大幅缩短了响应延迟。

  • 出色的“智效比”: 研发团队在训练过程中对 Token 效率进行了深度校准。评测数据显示,完成同等质量的任务,顶尖(SOTA)的水平。

    目前,开发者已可通过 Hugging Face 和 ModelScope(魔搭社区)获取该模型的开源资源,进一步探索其在各类行业应用中的潜力。

点赞(14)

评论列表共有 0 条评论

立即
投稿
返回
顶部