小米发布自动驾驶模型Xiaomi OneVL,如何解决"推理"难题?

智车科技

2周前

在中国的车企和科技企业大量投入下,自动驾驶走到现在,感知不再是瓶颈,模仿学习也逐渐触顶,现在更多的还是更好的策略,解决"看清了,该怎么办"。...但在推理阶段,这两个解码器全部移除。...◎第三阶段,才真正涉及认知和推理,小米把这套思路叫XLA。

芝能科技出品

在中国的车企和科技企业大量投入下,自动驾驶走到现在,感知不再是瓶颈,模仿学习也逐渐触顶,现在更多的还是更好的策略,解决"看清了,该怎么办"。

从看到到做决定,只有几十毫秒。小米这次发布的 Xiaomi OneVL,就是在回答这个问题,当自动驾驶进入"需要推理"的阶段,模型该怎么既快又准。

01

XLA路线,想清楚再开

如果把自动驾驶模型发展简单分个阶:

◎ 第一阶段是感知驱动,核心是检测和分割,把世界拆成"车、路、人";

◎ 第二阶段是模仿学习,模型直接学人类怎么开;

◎ 第三阶段,才真正涉及认知和推理,小米把这套思路叫XLA。

XLA的关键变化是,是从"像人一样开",要解决“为什么这样开"的问题。

前车减速、侧方来车、道路收窄是决策链条里的变量。但是推理一加进来,系统延迟直接飙升。

行业里常见的解法是显式思维链(CoT)。模型先把"思考过程"一步步生成出来,再给答案。这在语言任务里挺好用,但搁驾驶场景,基本等于没用,逐token生成的延迟,在车规系统里是致命的。

另一条路叫Latent CoT:把推理过程压进模型的隐空间,让模型"心里想",而不是"说出来再想"。

但问题在于,过去的Latent CoT压缩的是语言。而开车,本来就不是语言问题。

OneVL最有价值的地方是重新定义了推理对象。

◎ 传统Latent CoT的思路是:把"我为什么这么做"压缩成一段隐变量。

◎ OneVL的思路是:真正需要压缩的是未来。

自动驾驶决策是对接下来0.5秒、1秒场景会怎么演化的判断:

◎ 那辆车会不会并线?

◎ 行人会不会进道路?

◎ 继续加速会不会撞上?

驾驶决策依赖的是一个隐含的"世界模型"。OneVL的关键一步,就是把推理的载体,从语言转向视觉时空结构,也就是未来场景本身。

02

架构:三个克制但关键的设计

OneVL在结构上做了三件挺克制、但很关键的改变。

● 双模态latent token:让"想"和"理解"分开

模型内部引入两类隐变量:

◎ 视觉latent token:负责编码场景里的物理关系和时序变化

◎ 语言latent token:负责表达驾驶意图和语义逻辑

相当于把"世界怎么变"和"我要做什么"分开建模。模型不再用语言强行描述物理世界,而是在视觉空间里直接推理。

好处是,信息不会在语言压缩过程中丢失。过去Latent CoT的问题,本质就是把高维时空信息硬塞进语言结构,信息损耗不可避免。

● 双解码器监督:训练时"想清楚",推理时"直接给答案"

OneVL引入了两个解码器,但只存在于训练阶段:

◎ 视觉解码器:预测未来0.5s / 1s的场景

◎ 语言解码器:重建人类可读的推理过程

这一步很关键。等于是给latent token加了两种约束:

◎ 模型必须学会正确预测未来世界,否则视觉监督会惩罚它;

◎ 另它还要能解释自己的决策逻辑,否则语言监督也会拉回来。

但在推理阶段,这两个解码器全部移除。

模型训练时被逼"想清楚",但实际跑的时候直接给答案,典型的"训练-推理解耦"。

● 一步式推理:彻底消灭自回归

OneVL最激进的设计:推理阶段不做任何逐token生成,所有latent token一次性预填充,模型并行计算,直接输出轨迹或决策。

延迟理论上可以接近"只输出答案"的模型,而不是传统CoT那种需要逐步生成的结构。

相比显式CoT,速度最高提升2.3倍,精度还更高。说白了,这不是优化,是换赛道。

OneVL容易被忽略的一点,是它的训练流程,分三个阶段:

◎ 先单独训练视觉解码器,让模型学会预测未来

◎ 再训练主模型,学习基本的轨迹和表示

◎ 最后联合微调,把三者对齐

听着挺麻烦,但结果说话:跳过这步,性能直接掉20多分。轨迹、语言、视觉一起练会打架。如果不分阶段处理,模型很容易陷入梯度干扰,OneVL是一套训练方法的工程化解法。

从指标上看,OneVL在多个基准上已经超过显式CoT,这在过去挺难想象的,同时解决了三个长期问题:

◎ 第一,CoT太慢。 自回归推理在车规系统里几乎不可接受,而OneVL把延迟压到了0.24秒量级,已经进入可部署区间。

◎ 第二,隐式推理不够强。 过去Latent CoT精度不如显式CoT,本质是信息压缩方式不对。OneVL通过引入世界模型监督弥补了这一点。

◎ 第三,可解释性缺失。 端到端模型一直被吐槽"黑盒"。OneVL通过语言+视觉双解释,把决策过程重新暴露出来。

这三点,对应的是自动驾驶落地的三个核心门槛:性能、实时性、可验证性。

这套方法,并不局限于自动驾驶。机器人、具身智能,甚至复杂决策系统,只要涉及"未来状态预测+实时决策",都可以套用。

OneVL已经把延迟压到了4Hz级别,在很多辅助驾驶场景里是可以接受的。

但距离真正大规模上车,还有几个现实问题:

◎ 算力成本是否可控;

◎ 长尾场景下的鲁棒性;

◎ 以及最关键的,数据规模是否足以支撑这种推理能力。

过去行业在"要不要推理"之间摇摆。OneVL的答案是,推理必须要有,但玩法得变。

小结

OneVL真正做的事情是让模型在有限时间里,用对的方式思考,小米的自动驾驶能后来居上吗?

原文标题 : 小米发布自动驾驶模型Xiaomi OneVL,如何解决"推理"难题?

在中国的车企和科技企业大量投入下,自动驾驶走到现在,感知不再是瓶颈,模仿学习也逐渐触顶,现在更多的还是更好的策略,解决"看清了,该怎么办"。...但在推理阶段,这两个解码器全部移除。...◎第三阶段,才真正涉及认知和推理,小米把这套思路叫XLA。

芝能科技出品

在中国的车企和科技企业大量投入下,自动驾驶走到现在,感知不再是瓶颈,模仿学习也逐渐触顶,现在更多的还是更好的策略,解决"看清了,该怎么办"。

从看到到做决定,只有几十毫秒。小米这次发布的 Xiaomi OneVL,就是在回答这个问题,当自动驾驶进入"需要推理"的阶段,模型该怎么既快又准。

01

XLA路线,想清楚再开

如果把自动驾驶模型发展简单分个阶:

◎ 第一阶段是感知驱动,核心是检测和分割,把世界拆成"车、路、人";

◎ 第二阶段是模仿学习,模型直接学人类怎么开;

◎ 第三阶段,才真正涉及认知和推理,小米把这套思路叫XLA。

XLA的关键变化是,是从"像人一样开",要解决“为什么这样开"的问题。

前车减速、侧方来车、道路收窄是决策链条里的变量。但是推理一加进来,系统延迟直接飙升。

行业里常见的解法是显式思维链(CoT)。模型先把"思考过程"一步步生成出来,再给答案。这在语言任务里挺好用,但搁驾驶场景,基本等于没用,逐token生成的延迟,在车规系统里是致命的。

另一条路叫Latent CoT:把推理过程压进模型的隐空间,让模型"心里想",而不是"说出来再想"。

但问题在于,过去的Latent CoT压缩的是语言。而开车,本来就不是语言问题。

OneVL最有价值的地方是重新定义了推理对象。

◎ 传统Latent CoT的思路是:把"我为什么这么做"压缩成一段隐变量。

◎ OneVL的思路是:真正需要压缩的是未来。

自动驾驶决策是对接下来0.5秒、1秒场景会怎么演化的判断:

◎ 那辆车会不会并线?

◎ 行人会不会进道路?

◎ 继续加速会不会撞上?

驾驶决策依赖的是一个隐含的"世界模型"。OneVL的关键一步,就是把推理的载体,从语言转向视觉时空结构,也就是未来场景本身。

02

架构:三个克制但关键的设计

OneVL在结构上做了三件挺克制、但很关键的改变。

● 双模态latent token:让"想"和"理解"分开

模型内部引入两类隐变量:

◎ 视觉latent token:负责编码场景里的物理关系和时序变化

◎ 语言latent token:负责表达驾驶意图和语义逻辑

相当于把"世界怎么变"和"我要做什么"分开建模。模型不再用语言强行描述物理世界,而是在视觉空间里直接推理。

好处是,信息不会在语言压缩过程中丢失。过去Latent CoT的问题,本质就是把高维时空信息硬塞进语言结构,信息损耗不可避免。

● 双解码器监督:训练时"想清楚",推理时"直接给答案"

OneVL引入了两个解码器,但只存在于训练阶段:

◎ 视觉解码器:预测未来0.5s / 1s的场景

◎ 语言解码器:重建人类可读的推理过程

这一步很关键。等于是给latent token加了两种约束:

◎ 模型必须学会正确预测未来世界,否则视觉监督会惩罚它;

◎ 另它还要能解释自己的决策逻辑,否则语言监督也会拉回来。

但在推理阶段,这两个解码器全部移除。

模型训练时被逼"想清楚",但实际跑的时候直接给答案,典型的"训练-推理解耦"。

● 一步式推理:彻底消灭自回归

OneVL最激进的设计:推理阶段不做任何逐token生成,所有latent token一次性预填充,模型并行计算,直接输出轨迹或决策。

延迟理论上可以接近"只输出答案"的模型,而不是传统CoT那种需要逐步生成的结构。

相比显式CoT,速度最高提升2.3倍,精度还更高。说白了,这不是优化,是换赛道。

OneVL容易被忽略的一点,是它的训练流程,分三个阶段:

◎ 先单独训练视觉解码器,让模型学会预测未来

◎ 再训练主模型,学习基本的轨迹和表示

◎ 最后联合微调,把三者对齐

听着挺麻烦,但结果说话:跳过这步,性能直接掉20多分。轨迹、语言、视觉一起练会打架。如果不分阶段处理,模型很容易陷入梯度干扰,OneVL是一套训练方法的工程化解法。

从指标上看,OneVL在多个基准上已经超过显式CoT,这在过去挺难想象的,同时解决了三个长期问题:

◎ 第一,CoT太慢。 自回归推理在车规系统里几乎不可接受,而OneVL把延迟压到了0.24秒量级,已经进入可部署区间。

◎ 第二,隐式推理不够强。 过去Latent CoT精度不如显式CoT,本质是信息压缩方式不对。OneVL通过引入世界模型监督弥补了这一点。

◎ 第三,可解释性缺失。 端到端模型一直被吐槽"黑盒"。OneVL通过语言+视觉双解释,把决策过程重新暴露出来。

这三点,对应的是自动驾驶落地的三个核心门槛:性能、实时性、可验证性。

这套方法,并不局限于自动驾驶。机器人、具身智能,甚至复杂决策系统,只要涉及"未来状态预测+实时决策",都可以套用。

OneVL已经把延迟压到了4Hz级别,在很多辅助驾驶场景里是可以接受的。

但距离真正大规模上车,还有几个现实问题:

◎ 算力成本是否可控;

◎ 长尾场景下的鲁棒性;

◎ 以及最关键的,数据规模是否足以支撑这种推理能力。

过去行业在"要不要推理"之间摇摆。OneVL的答案是,推理必须要有,但玩法得变。

小结

OneVL真正做的事情是让模型在有限时间里,用对的方式思考,小米的自动驾驶能后来居上吗?

原文标题 : 小米发布自动驾驶模型Xiaomi OneVL,如何解决"推理"难题?

展开
打开“财经头条”阅读更多精彩资讯
APP内打开