小米发布自动驾驶模型Xiaomi OneVL，如何解决"推理"难题？

财经头条

提升一亿中产阶级阅读效率

打开

智车科技

2周前

在中国的车企和科技企业大量投入下，自动驾驶走到现在，感知不再是瓶颈，模仿学习也逐渐触顶，现在更多的还是更好的策略，解决"看清了，该怎么办"。...但在推理阶段，这两个解码器全部移除。...◎第三阶段，才真正涉及认知和推理，小米把这套思路叫XLA。

芝能科技出品

在中国的车企和科技企业大量投入下，自动驾驶走到现在，感知不再是瓶颈，模仿学习也逐渐触顶，现在更多的还是更好的策略，解决"看清了，该怎么办"。

从看到到做决定，只有几十毫秒。小米这次发布的 Xiaomi OneVL，就是在回答这个问题，当自动驾驶进入"需要推理"的阶段，模型该怎么既快又准。

XLA路线，想清楚再开

如果把自动驾驶模型发展简单分个阶：

◎ 第一阶段是感知驱动，核心是检测和分割，把世界拆成"车、路、人"；

◎ 第二阶段是模仿学习，模型直接学人类怎么开；

◎ 第三阶段，才真正涉及认知和推理，小米把这套思路叫XLA。

XLA的关键变化是，是从"像人一样开"，要解决“为什么这样开"的问题。

前车减速、侧方来车、道路收窄是决策链条里的变量。但是推理一加进来，系统延迟直接飙升。

行业里常见的解法是显式思维链（CoT）。模型先把"思考过程"一步步生成出来，再给答案。这在语言任务里挺好用，但搁驾驶场景，基本等于没用，逐token生成的延迟，在车规系统里是致命的。

另一条路叫Latent CoT：把推理过程压进模型的隐空间，让模型"心里想"，而不是"说出来再想"。

但问题在于，过去的Latent CoT压缩的是语言。而开车，本来就不是语言问题。

OneVL最有价值的地方是重新定义了推理对象。

◎ 传统Latent CoT的思路是：把"我为什么这么做"压缩成一段隐变量。

◎ OneVL的思路是：真正需要压缩的是未来。

自动驾驶决策是对接下来0.5秒、1秒场景会怎么演化的判断：

◎ 那辆车会不会并线？

◎ 行人会不会进道路？

◎ 继续加速会不会撞上？

驾驶决策依赖的是一个隐含的"世界模型"。OneVL的关键一步，就是把推理的载体，从语言转向视觉时空结构，也就是未来场景本身。

架构：三个克制但关键的设计

OneVL在结构上做了三件挺克制、但很关键的改变。

● 双模态latent token：让"想"和"理解"分开

模型内部引入两类隐变量：

◎ 视觉latent token：负责编码场景里的物理关系和时序变化

◎ 语言latent token：负责表达驾驶意图和语义逻辑

相当于把"世界怎么变"和"我要做什么"分开建模。模型不再用语言强行描述物理世界，而是在视觉空间里直接推理。

好处是，信息不会在语言压缩过程中丢失。过去Latent CoT的问题，本质就是把高维时空信息硬塞进语言结构，信息损耗不可避免。

● 双解码器监督：训练时"想清楚"，推理时"直接给答案"

OneVL引入了两个解码器，但只存在于训练阶段：

◎ 视觉解码器：预测未来0.5s / 1s的场景

◎ 语言解码器：重建人类可读的推理过程

这一步很关键。等于是给latent token加了两种约束：

◎ 模型必须学会正确预测未来世界，否则视觉监督会惩罚它；

◎ 另它还要能解释自己的决策逻辑，否则语言监督也会拉回来。

但在推理阶段，这两个解码器全部移除。

模型训练时被逼"想清楚"，但实际跑的时候直接给答案，典型的"训练-推理解耦"。

● 一步式推理：彻底消灭自回归

OneVL最激进的设计：推理阶段不做任何逐token生成，所有latent token一次性预填充，模型并行计算，直接输出轨迹或决策。

延迟理论上可以接近"只输出答案"的模型，而不是传统CoT那种需要逐步生成的结构。

相比显式CoT，速度最高提升2.3倍，精度还更高。说白了，这不是优化，是换赛道。

OneVL容易被忽略的一点，是它的训练流程，分三个阶段：

◎ 先单独训练视觉解码器，让模型学会预测未来

◎ 再训练主模型，学习基本的轨迹和表示

◎ 最后联合微调，把三者对齐

听着挺麻烦，但结果说话：跳过这步，性能直接掉20多分。轨迹、语言、视觉一起练会打架。如果不分阶段处理，模型很容易陷入梯度干扰，OneVL是一套训练方法的工程化解法。

从指标上看，OneVL在多个基准上已经超过显式CoT，这在过去挺难想象的，同时解决了三个长期问题：

◎ 第一，CoT太慢。自回归推理在车规系统里几乎不可接受，而OneVL把延迟压到了0.24秒量级，已经进入可部署区间。

◎ 第二，隐式推理不够强。过去Latent CoT精度不如显式CoT，本质是信息压缩方式不对。OneVL通过引入世界模型监督弥补了这一点。

◎ 第三，可解释性缺失。端到端模型一直被吐槽"黑盒"。OneVL通过语言+视觉双解释，把决策过程重新暴露出来。

这三点，对应的是自动驾驶落地的三个核心门槛：性能、实时性、可验证性。

这套方法，并不局限于自动驾驶。机器人、具身智能，甚至复杂决策系统，只要涉及"未来状态预测+实时决策"，都可以套用。

OneVL已经把延迟压到了4Hz级别，在很多辅助驾驶场景里是可以接受的。

但距离真正大规模上车，还有几个现实问题：

◎ 算力成本是否可控；

◎ 长尾场景下的鲁棒性；

◎ 以及最关键的，数据规模是否足以支撑这种推理能力。

过去行业在"要不要推理"之间摇摆。OneVL的答案是，推理必须要有，但玩法得变。

小结

OneVL真正做的事情是让模型在有限时间里，用对的方式思考，小米的自动驾驶能后来居上吗？

原文标题 : 小米发布自动驾驶模型Xiaomi OneVL，如何解决"推理"难题？