小米自动驾驶模型Xiaomi OneVL开源：业内率先统一VLA、世界模型路线

2026-05-30 16:00 54 阅读 0 评论 36 点赞

5月13日最新消息，小米公司今日宣布，其自主研发的Xiaomi OneVL自动驾驶模型正式对外发布并实现开源。

该模型在行业内首次实现了VLA（视觉-语言-行动）、世界模型与潜空间推理三大技术路线的融合，在继承XLA模型强大推理能力的基础上，显著提升了推理效率与准确性，被视为一项具有开拓意义的行业方案。

在精度方面，它超越了显式CoT（链式推理）方法；在速度方面，它达到了仅预测“答案”的潜空间CoT方案的水平。过去，VLA与世界模型在自动驾驶领域各自独立发展：VLA专注于理解驾驶场景并输出操作指令，而世界模型则侧重于预测未来的场景变化。

通过潜空间推理技术，Xiaomi OneVL首次将这两条技术路线整合至同一框架中。

小米自动驾驶模型xiaomi onevl开源：率先统一vla、世界模型路线

在涵盖感知、推理与规划的多项主流基准测试中，Xiaomi OneVL全面刷新了潜空间推理方法的性能纪录：

在ROADWork、Impromptu和Alpamayo-R1三项基准测试中均达到当前最优水平（SOTA），并在NAVSIM测试中表现优异，PDM评分达到88.84，首次在潜空间推理领域超越了显式CoT的88.29分；

该模型是目前唯一在所有基准测试中均超越显式自回归CoT的隐式推理方法；

其挂载的MLP回归头变体，将延迟进一步压缩至0.24秒（约4.16赫兹），仅为VLA自回归推理延迟的5.4%，为量产车型的实时部署提供了可行的技术路径。

消融实验进一步证实，压缩物理世界中的动态信息能够带来显著的性能提升。

此外，Xiaomi OneVL能够为模型决策提供语言与视觉双重维度的可解释性：既可以通过文字说明“为什么要这样驾驶”，也可以通过预测画面展示“接下来会发生什么”。

（举报）