智能辅助驾驶下半场，决定谁能活到L4的三把尺

财经头条

提升一亿中产阶级阅读效率

打开

智车科技

3周前

智能辅助驾驶比拼的是端到端能够学习多少cornercase；现在，比拼的是系统能从数据里"自己悟出来"多少东西。

到了2026 年的今天，行业内不管是主机厂还是辅助驾驶的供应商都赞同智能辅助驾驶的赛跑已经到了下半场。

一年前的这个时候，所有发布会上还在比"几颗激光雷达"、"多少 TOPS 算力"、"是否标配城市 NOA"。今年走完CES 2026、北京车展以及各家智能化战略发布会一圈，你会发现谈话的关键词全变了：

特斯拉 FSD V14 在讲端到端参数翻 10 倍与"物理图灵测试"

华为 ADS 5.0 在讲 WEWA 架构（世界引擎模型 + 世界动作模型）

吉利在 CES 2026 一口气带来WAM世界行为模型，全域AI2.0，千里浩瀚G-ASD等技术

理想VLA2.1把视觉-语言-动作三模态做成统一基座，能"推演几十秒"路况

小鹏宣布世界基座模型参数推到 720 亿，瞄准 L4 训练Waymo 第六代 Robotaxi 喊出到2026年底实现每周超过100万次付费出行。

大家发布的热词里面，透露的都是对Physical AI(物理 AI )执行到底的决心，不再突出硬件的差异化，更多是默认了硬件需要服务和匹配于AI，也凸显了对AI大模型演化到自动驾驶的决心。

那么此刻，智能辅助驾驶的下半场会以什么来衡量呢？很多人看AI的能力，主要看数据、算法、算力还有他们底层的能源。那么智能辅助驾驶、自动驾驶行业呢？

如果让我用一个最简的坐标系去看 2026 年这场博弈，我会画三把尺：模型参数量、数据飞轮、世界模型和一个体系的基座。

它们分别决定了一套智驾系统的"上限有多高"、"下限有多稳"、"未来能走多远"，“会不会走弯路”。任何一家车企，少了任何一把，估计都难以轻松的领先这个下半场。

下面，让我们用这套方法论，来探讨下当前汽车行业的辅助驾驶状态。

第一把尺：模型参数量——决定代际差的第一刀

模型参数量最早是蔚小理新势力们在2024年底提出，吉利汽车在2025年底搬出了“含模量"这个词。

模型参数量的意思很朴素：智驾系统里AI模型占多少、人工规则写多少。模型越多、规则越少，模型参数量越高，那么大白话理解就是模型懂得东西和推理能力更强，那么辅助驾驶、自动驾驶能应对更多的场景，能更精细应对场景。

而目前，整个行业都在经历同一场底层范式转移——从规则驱动（Rule-based）到数据驱动（Data-driven）。

特斯拉是这条路的"扫雷者"。2024年初，FSD V12 把规则代码从30万行砍到了3000行，感知-决策-控制全部交给一个神经网络。这是端到端在量产车上的第一次落地。

到了 2026 年，到北京车展上跑一圈，你可以感受到几乎所有头部玩家都站到了这条赛道上，不管是4s店试驾还是各家的视频，总是能看到“这也能通过”“这么丝滑”等等场景，那么这个时候拉开智能辅助驾驶的差距就变化了，变成了参数量，犹如大家玩游戏时候你30hz我60hz，你120hz的差别。

全球第一梯队的"模型参数量地图"

特斯拉FSD V14：神经网络可训练参数翻到V13的10倍，引入多模态大模型，"Photon In，Control Out"一气呵成

华为ADS 5.0：WEWA 2.0架构（世界引擎模型+世界动作模型），muti-agent架构

理想MindVLA：原生多模态MoE-Transformer基座，视觉/语言/动作底层融合，VLA 2.1大模型已OTA推送至ADUltra用户

小鹏VLA2.0端到端：拿掉Language（人类语言）的VLA模型，自研图灵芯片支持30B大模型上车，模型迭代周期已压缩到"两天一版"

吉利千里浩瀚G-ASD：Agent架构+ WAM世界行为模型，云端模型千亿级参数，车端VLA大模型接近百亿参数

比亚迪天神之眼：璇玑架构端到端大模型+接入DeepSeek，借大模型推理能力跃升车端认知

模型参数量背后的魔法

模型参数量决定了系统的两个核心能力上限——类人性和进化速度。

规则写得再多，也写不完所有 corner case。你真的永远没法穷举：突然窜出的电动车、雨夜逆光下的纸箱、被撞翻的三角警示牌、交警的手势、一只过马路的狗。

不过，只要模型参数量足够高，系统就能像人一样从场景里"悟出"规律，也就是新势力常说的“涌现”。随着AI算法的迭代，端到端算法已经从1.0 映射学过的路况，演化到了VLA世界模型等大模型可以推演未来甚至长达几十秒。

能够推演未来几十秒和只能映射学过的路况，是智能辅助驾驶的两个时代。

过去，智能辅助驾驶比拼的是端到端能够学习多少corner case；现在，比拼的是系统能从数据里"自己悟出来"多少东西。

不过，模型参数量高不是免费午餐。它对云端算力、训练数据、算法架构有指数级要求——

特斯拉Giga Texas Dojo 超算 + xAI的Colossus和MACROHARDRR的大型超级计算机中心联合训练，有估计说上百EFLOPS

吉利星睿智算中心 2.0 算力达 23.5 EFLOPS。

华为云端算力部分投入近百亿元，未来5年至少再投入700-800亿元

小鹏自建扶摇智算中心 10 EFLOPS

理想云端算力也接近10 EFLOPS

一家车企云端没有 5 EFLOPS 起步的算力底座，已经基本可以退出模型参数量这场决赛了。

第二把尺：数据飞轮——所有人都在抢的"新石油"

如果模型参数量决定了"上限"，那数据飞轮决定了"下限"——你能不能稳得住、跑得久、追得上。

数据飞轮的逻辑朴素到不能再朴素：装车越多→数据越多→模型越好→体验越佳→装车更多。一圈一圈滚下去，强者恒强。各家在这件事上的体量差，比硬件参数差大得多——

各家"数据弹药库"对照

特斯拉FSD：2026年初的安全报告显示FSD全球累计行驶里程突破100亿英里，日增约4.8亿公里的数据量行业第一

比亚迪天神之眼：截至2026年保有量超过300万辆，日增辅助驾驶里程2亿公里

华为乾崑ADS：截至2026年北京车展期间，累计辅助驾驶里程突破108亿公里

吉利千里浩瀚：850万车辆数据池+沃尔沃55年百万级事故数据库

小鹏VLA 2.0：基于50PB的视频训练、6.46万公里实车测试、2.16亿公里仿真

理想VLA 2.1：VLA司机大模型，日增超7200万公里数据

但请注意一个反直觉的事实

数据多 ≠ 模型好。

数据是有"质量梯度"的。光有量、缺少 corner case 多样性的数据池，反而会让模型严重过拟合日常场景——平时挺顺，一遇到极端情况就抓瞎。这就是为什么，头部车企都在拼命做三件事：数据清洗、场景挖掘、仿真生成。确保数据处理多样性，有好的case也有bad case。

我们可以拿当前国内两大汽车巨头吉利和比亚迪的实践来看：

比亚迪——海鸥到仰望、6.98 万到 100 万的全价位车型打通，主打中国本土路况的"广谱覆盖"。数据飞轮速度快、规模大，是"用千万辆 C 端车的真实路况，把模型喂胖"的逻辑。

吉利——千里浩瀚不仅拥有吉利旗下累积百亿智驾里程、2500万clips视频数据集+850 万辆车规模化采集，还有沃尔沃 55 年事故数据库，并持续不断积累"安全极限工况"和"长尾事故场景"核心数据。因此，其数据不仅规模庞大，单位数据的训练价值也极高。

两种数据实践，没有谁对谁错，是两条不同的护城河。但如果非要问"哪种更难复制"？我的答案是后者——极端数据不是钱能买到的，是几十年的安全系统攒出来的。

数据是新的石油。但没有云端算力、没有场景挖掘工具链、没有事故数据库的数据，是冷油，烧不起来。

第三把尺：世界模型——汽车第一次拥有"世界观"

这是 2026 年最值得圈起来的关键词。

世界模型（World Model）这个概念，最早来自1990年的学术研究，后来谷歌deepmind的David Ha和 Jürgen Schmidhuber 在 2018 年发表的开创性论文《Recurrent World Models Facilitate Policy Evolution》给世界模型奠定现代概念，本意是让 AI 通过观察视频"自己理解"物理世界的规律：水会往低处流、车撞了会变形、人在斑马线上会左右看。

听起来很玄学，但对智驾来说，它解决的是一个最致命的问题——长尾场景。

传统智驾的逻辑是"模仿"：看老司机怎么开，我就怎么开。这种逻辑有一个无法克服的弱点——它没法处理"老司机没见过"的场景。

世界模型不一样。它不模仿"动作"，它学习"规律"。学会了物理世界的运行规律之后，遇到任何新场景，它都能在大脑里"预演"几遍——这条路走过去会怎样？那条路呢？然后挑一个最优解。

2026 年，世界模型成了行业标配关键词

特斯拉：FSD 与 Optimus 共享世界模型，3D 高斯重建分辨率达 10 厘米，AI占用网络精度行业领先

华为 ADS 5.0：WEWA 2.0 架构由"世界引擎模型"+"世界动作模型"双轮组成，安全性能支持 L3

吉利 WAM 世界行为模型：WM+VLA，拥有超高含模量，同时打通辅助驾驶、座舱、底盘等汽车全域，实现整车智能化

小鹏 VLA 2.0 世界基座模型：参数规模 720 亿，瞄准 L4 训练

理想 VLA 2.1：原生多模态 MoE-Transformer，3D ViT + 前向 3DGS 实现精准环境感知

这些不同词背后都指向了一个技术，就是世界模型，理解人类物理世界规律的世界模型。

吉利 WAM 的一个巧妙设计

我特别想拿吉利的 WAM 出来讲一下，因为它有一个非常聪明的分层架构——

顶层 MLLM多模态大语言模型负责"理解任务"（送我回家、避开拥堵）

中层 Action Expert动作专家负责"生成轨迹"

底层 World Model世界模型负责"预演结果"

整体由价值函数（Value Function）评分，选最优解

这套架构最颠覆的地方在于，它把"人"也写进了系统。

通过持续吸收人类驾驶员的真实反馈（Human-in-the-loop），神经网络的决策权重在不断校准。换句话说：WAM不是要替代人，是要让车"像人一样思考"再决定。

这件事的份量，业内人懂——你愿不愿意把方向盘交给一个完全黑盒的神经网络？大多数人答案是"不愿意"。但你愿不愿意交给一个"会推演、会反思、会被人类反馈校准"的智能体？这就完全不一样了。

当一辆车第一次拥有"世界观"，这件事比"车位到车位"重要 100 倍——因为前者决定它能不能上 L4，后者只决定它能不能多卖一台。

有了以上三把尺，可以保证做好辅助驾驶。

但是辅助驾驶下半场的终局是什么？特斯拉应该给出了答案，是L4自动驾驶，是Robotaxi形态的自动驾驶机器人。

L4 Robotaxi——下半场的真正决赛

L2进化到L3 和 L4 这条进化路径上，大部分车企走到 L2++ 就停下来了。少数走到 L3。能真正把 L4 跑起来的，凤毛麟角。

走到 2026 年这个节点，行业逐渐意识到一件事：单点算法已不再决定胜负，真正决定胜负的是"体系能力"——一家公司是否同时握住芯片、模型、算法、数据、量产、运营这六张牌。任何一张缺位，L4 都跑不通。

过去十年的 Robotaxi 玩家——Waymo、百度萝卜快跑、小马智行、文远知行——绝大多数是科技公司，手里通常只有"算法 + 改装车队"两张牌，剩下四张靠合作。结果是技术跑通，但商业模型卡在单车成本和车队规模上。

真正能把六张牌握齐的，是已经完成"科技公司化"转型的主机厂。

特斯拉是第一个走通的样本：Tesla 整车 + FSD 自研芯片 + Dojo 超算 + V14 端到端大模型 + 30 亿英里数据池 + Cybercab + xAI + SpaceX——这套体系散落在不同业务里，跑的却是同一套底层 AI。

在中国，走相似路径的是吉利。芯擎芯片 + 星睿智算中心 2.0（23.5 EFLOPS）+ 千里科技 / 阶跃星辰大模型 + WAM 世界行为模型 + 850 万车数据池 + Eva Cab Robotaxi + 64 颗低轨卫星。每一项单拎出来不一定最强，但六环串起来的整体效率，单点科技公司无法复制。

全球仅有两家车企，同时拥有"车 + 卫星"的天地一体化布局——一家是特斯拉，另一家是吉利。

科技公司像"长枪兵团"：算法是最长的矛，但其他部位裸露；完成转型的主机厂像"重甲军团"：每一环都有装甲护住，谁也不容易被一击致命。

L4 不是单点突破的较量，是持久战。比的不是"谁的算法更强"，是"谁的体系不缺一环"。

这就是为什么——Robotaxi的竞争，已经从"科技公司的专利"，转向"汽车品牌主机厂的新宠"。

智能辅助驾驶的底座，从来不是某一项算法，而是一整套体系能力。笑到最后的，不会是"最会写算法"的公司，而是那家最早完成"从汽车制造商到汽车科技公司"身份转换的公司。

写在最后

三把尺和一个体系丈量量完，我并不想给出一个"谁会赢"的答案。

因为这场博弈还没到决赛，而且决赛的规则还在被重写。

我真正想说的是：2026年的智驾行业，正在经历一次非常罕见的"范式收敛"时刻——当所有人都开始讲世界模型、都开始卷端到端参数量、都开始认为L4是终点而不是科幻，这意味着方向已经基本确定，剩下的差别只是速度和体系。

这种时刻，往往是行业格局最快速重组的窗口期。上一次类似的收敛，是2020年前后电动化赛道的"跟还是不跟"——那次没跟上的，现在的处境都不太好看。

这一次，问题不再是"要不要搞智驾"，而是"你的体系能不能撑住这场仗"。

对车企来说，这个问题很残酷——因为体系能力不是一两年能补的。芯片要自研、算力要建、数据要滚、模型要养、人才要攒，每一环都是时间的函数。

对消费者来说，这个问题其实很简单——当一辆车开始拥有"世界观"，你就不只是在买一辆代步工具，你买的是一个还在学习、还在进化的智能体。它会越开越好，也会越开越了解你。

这是汽车一百年历史里，第一次出现这种产品形态。

至于谁能笑到最后？让路上的数据来回答吧——那是最诚实的一把尺。

主要信息来源：文中数据综合自CES 2026、比亚迪/华为/小鹏/理想/特斯拉/Waymo/吉利公开发布会及公开报道；部分前瞻判断为作者基于现有公开信息的推演。

*未经准许严禁转载和摘录-

原文标题 : 智能辅助驾驶下半场，决定谁能活到L4的三把尺