芝能智芯出品
VLA(Vision-Language-Action)驾驶大模型是理想汽车在2025年八月即将实现重要落地的辅助驾驶。
不同于第一代的结构化算法和第二代的端到端系统,采用了新的视觉-语言-行为的多模态架构,使得车辆可以同时理解空间地理、语言意图和行为合理性,实现更好的出行体验。
Part 1VLA模型结构
VLA架构的本质,是在原端到端 VA(Vision-Action)模型基础上引入了Language思维模块,从而构建出能"理解"场景、"推理"路径并能"记忆"行为的大脑式模型。
设计的初衷是突破模仿学习的天花板——端到端架构,随着数据量扩增,其MPI(Miles per Intervention)提升逐渐趋缓,而VLA借助思维链条的加入,提升了模型泛化与适应未知场景的能力。
VLA司机大模型,让辅助驾驶变得更聪明、更安全,也更贴近人类司机的感觉,能“思考”和“理解”你在路上的需求。
◎ 提前避险,像老司机一样判断,过去的系统常常一到丁字路口就急刹车。但 VLA大模型会判断是否有盲区或潜在危险,提前减速,更加安全、稳妥,开起来让人放心。
◎ 加减速更自然,转弯超车也顺滑,能更好地感知周围环境,控制车辆的加速、刹车和转向,像一个技术熟练的司机,开车稳、坐车也舒服,不再有突然一脚油门或急刹那种不适感。
◎ 连续沟通,完成一整套任务,你可以直接对它说:“先去加油,再接孩子。”VLA司机大模型能理解多个指令之间的关系,自动规划路线,连续完成多个任务,像个真正听得懂话、有逻辑的人类司机。
VLA采用了0.4×8的MoE结构,为车载平台量身定制,在有限算力下平衡了多场景适配能力与推理速度。模型不仅能完成路径决策,还能接受连续语言指令完成串联任务,实现“与司机对话”的连续驾驶体验。
通过对通识知识、空间结构和人类驾驶风格的大量迁移学习,VLA逐步形成“拟人化”驾驶策略。
模型训练方面,理想在云端搭建了13 EFLOPS的算力平台,其中3 EFLOPS用于推理,10 EFLOPS用于训练,并基于此构建了32B参数量的多模态大模型。
该模型通过强化学习与模型蒸馏压缩为3.2B规模的MoE架构,并成功部署于车端Thor芯片上。该芯片采用INT8和FP8混合精度推理,有效算力达到1000 TOPS,在10Hz帧率下实现完整的视觉语言交互响应。
为了提升推理效率,理想引入了多项模型压缩策略,如Diffusion流匹配推理步骤压缩、MoE路由器动态激活机制等。例如传统Diffusion模型需10步生成路径,而通过Flow Matching方式压缩至2步推理,有效提升10Hz帧率下响应时延。
VLA从架构设计、数据结构、工程实现构建了一个具备思维与执行能力的驾驶体,在自动驾驶模型向GPT时刻迈进的过程中率先实现了工程落地。
Part 2从芯片压榨到世界仿真
在VLA落地过程中,需要通过工程优化将既有算力平台推至极限。
Thor芯片在理论算力700TOPS的基础上,通过INT8与FP8混合精度优化、PTX底层重写、CUDA魔改等手段实现1000 TOPS的推理效率,配合10Hz高帧率运行VLA模型来进行。
甚至在更低算力的Orin-X芯片上,也通过INT4混合精度与MoE精简部署,实现与Thor平台几乎相同的推理体验,保持同步推送能力。
数据与训练能力构成另一个核心支柱。数据闭环已累计超12亿有效驾驶数据片段,并以“老司机风格”为标注准则,清洗训练数据以符合高安全性、舒适度与规则要求。
当前模型以1000万Clips为基础训练量,通过QAT量化训练与自研工具链完成FP32至FP8/INT4模型的稳定收敛,并结合RLHF强化学习机制,确保每一版本模型能力不断逼近“人驾10倍安全性”的目标。
VLA模型真正实现飞跃的关键并非训练数据本身,而是世界模型与仿真环境的落地。
在物理世界成本高昂、反馈周期慢的背景下,理想自研的世界模型构建起一个完整具身智能训练空间,通过构建具Agent智能的3D物理环境,模拟红绿灯可视性、车辆行为反馈、碰撞响应等细节,实现在90%以上场景中以仿真方式替代实车训练。
系统支持每日30万公里以上的测试里程,总计仿真数据已超4000万公里。每一个仿真样本都经由大模型评测、评分、反馈并强化训练,构成完整闭环。
在OTA 7.5“超级对齐”升级版本中,VLA模型通过对40万+仿真场景的覆盖与评估,得分已全面超越上一代端到端模型。
理想的世界模型仿真能力构成VLA模型最重要的技术壁垒,加速了模型优化进程,还建立起行业领先的评测体系与行为奖励机制,为强化学习提供真实反馈,在模型具身智能能力不断增强的过程中,保障安全性、舒适性与合规性的有序进化。
小结
VLA可能是一条辅助驾驶的路径,从感知、决策、执行三元分离走向类人推理、交互与自主行为的整合。VLA的真正价值,不仅是驾驶更平顺、接管更少、交流更自然的“司机模型”。
原文标题 : 从“模仿”走向“思考”:VLA司机大模型带来的变化
芝能智芯出品
VLA(Vision-Language-Action)驾驶大模型是理想汽车在2025年八月即将实现重要落地的辅助驾驶。
不同于第一代的结构化算法和第二代的端到端系统,采用了新的视觉-语言-行为的多模态架构,使得车辆可以同时理解空间地理、语言意图和行为合理性,实现更好的出行体验。
Part 1VLA模型结构
VLA架构的本质,是在原端到端 VA(Vision-Action)模型基础上引入了Language思维模块,从而构建出能"理解"场景、"推理"路径并能"记忆"行为的大脑式模型。
设计的初衷是突破模仿学习的天花板——端到端架构,随着数据量扩增,其MPI(Miles per Intervention)提升逐渐趋缓,而VLA借助思维链条的加入,提升了模型泛化与适应未知场景的能力。
VLA司机大模型,让辅助驾驶变得更聪明、更安全,也更贴近人类司机的感觉,能“思考”和“理解”你在路上的需求。
◎ 提前避险,像老司机一样判断,过去的系统常常一到丁字路口就急刹车。但 VLA大模型会判断是否有盲区或潜在危险,提前减速,更加安全、稳妥,开起来让人放心。
◎ 加减速更自然,转弯超车也顺滑,能更好地感知周围环境,控制车辆的加速、刹车和转向,像一个技术熟练的司机,开车稳、坐车也舒服,不再有突然一脚油门或急刹那种不适感。
◎ 连续沟通,完成一整套任务,你可以直接对它说:“先去加油,再接孩子。”VLA司机大模型能理解多个指令之间的关系,自动规划路线,连续完成多个任务,像个真正听得懂话、有逻辑的人类司机。
VLA采用了0.4×8的MoE结构,为车载平台量身定制,在有限算力下平衡了多场景适配能力与推理速度。模型不仅能完成路径决策,还能接受连续语言指令完成串联任务,实现“与司机对话”的连续驾驶体验。
通过对通识知识、空间结构和人类驾驶风格的大量迁移学习,VLA逐步形成“拟人化”驾驶策略。
模型训练方面,理想在云端搭建了13 EFLOPS的算力平台,其中3 EFLOPS用于推理,10 EFLOPS用于训练,并基于此构建了32B参数量的多模态大模型。
该模型通过强化学习与模型蒸馏压缩为3.2B规模的MoE架构,并成功部署于车端Thor芯片上。该芯片采用INT8和FP8混合精度推理,有效算力达到1000 TOPS,在10Hz帧率下实现完整的视觉语言交互响应。
为了提升推理效率,理想引入了多项模型压缩策略,如Diffusion流匹配推理步骤压缩、MoE路由器动态激活机制等。例如传统Diffusion模型需10步生成路径,而通过Flow Matching方式压缩至2步推理,有效提升10Hz帧率下响应时延。
VLA从架构设计、数据结构、工程实现构建了一个具备思维与执行能力的驾驶体,在自动驾驶模型向GPT时刻迈进的过程中率先实现了工程落地。
Part 2从芯片压榨到世界仿真
在VLA落地过程中,需要通过工程优化将既有算力平台推至极限。
Thor芯片在理论算力700TOPS的基础上,通过INT8与FP8混合精度优化、PTX底层重写、CUDA魔改等手段实现1000 TOPS的推理效率,配合10Hz高帧率运行VLA模型来进行。
甚至在更低算力的Orin-X芯片上,也通过INT4混合精度与MoE精简部署,实现与Thor平台几乎相同的推理体验,保持同步推送能力。
数据与训练能力构成另一个核心支柱。数据闭环已累计超12亿有效驾驶数据片段,并以“老司机风格”为标注准则,清洗训练数据以符合高安全性、舒适度与规则要求。
当前模型以1000万Clips为基础训练量,通过QAT量化训练与自研工具链完成FP32至FP8/INT4模型的稳定收敛,并结合RLHF强化学习机制,确保每一版本模型能力不断逼近“人驾10倍安全性”的目标。
VLA模型真正实现飞跃的关键并非训练数据本身,而是世界模型与仿真环境的落地。
在物理世界成本高昂、反馈周期慢的背景下,理想自研的世界模型构建起一个完整具身智能训练空间,通过构建具Agent智能的3D物理环境,模拟红绿灯可视性、车辆行为反馈、碰撞响应等细节,实现在90%以上场景中以仿真方式替代实车训练。
系统支持每日30万公里以上的测试里程,总计仿真数据已超4000万公里。每一个仿真样本都经由大模型评测、评分、反馈并强化训练,构成完整闭环。
在OTA 7.5“超级对齐”升级版本中,VLA模型通过对40万+仿真场景的覆盖与评估,得分已全面超越上一代端到端模型。
理想的世界模型仿真能力构成VLA模型最重要的技术壁垒,加速了模型优化进程,还建立起行业领先的评测体系与行为奖励机制,为强化学习提供真实反馈,在模型具身智能能力不断增强的过程中,保障安全性、舒适性与合规性的有序进化。
小结
VLA可能是一条辅助驾驶的路径,从感知、决策、执行三元分离走向类人推理、交互与自主行为的整合。VLA的真正价值,不仅是驾驶更平顺、接管更少、交流更自然的“司机模型”。
原文标题 : 从“模仿”走向“思考”:VLA司机大模型带来的变化