关于智驾端到端，到底一段式好还是两段式好？

未来汽车Daily

2周前

一段式端到端有极强的学习能力，所以对数据量的要求非常高。...一段式端到端本质是一个黑盒系统，而且缺乏透明度，工程师很难去debug下限很低的问题，因为不知道问题出在哪里。

头图来源| 网络

作者| 建武

编辑| 苏鹏

目前，端到端智驾非常火热。聊到高阶智驾，如果不说自己用上端到端，可能还会被说「不专业」。

虽然大家都叫「端到端」，但实际上，各家车企实现路径也不尽相同。

目前行业主要分为一段式和两段式两个流派。

一段式方案是将感知、决策、规划等模块整合到一个模型中，直接从传感器输入外部环境信息，直接输出自车的行驶轨迹。

两段式方案通常由两个主要部分组成，即感知模型和规控模型。信息在经过感知模型过滤后，再到规控模型。

对于这两种路线，各家车企看法也不相同。

一段式玩家

一段式端到端的优势在于，只要智驾大模型之前见过、学习过如何应对这样的场景，即便感知侧没有对未知物体定义，依然能直接做出正确的应对策略。

关于一段式端到端的好处，Momenta CEO 曹旭东举了一个很有意思的例子：清明节碰到烧纸钱火堆，怎么去应对这样的场景。

「碰到烧纸钱火堆，我也很紧张，不知道能不能避让，结果我开过去确实避让成功了，我专门开回去测试了五遍，都能成功绕过火堆」曹旭东激动的说道。

一段式端到端有极强的学习能力，所以对数据量的要求非常高。

这里的非常高表现在两个方面：

1、数据量

2、数据质量

对于一段式端到端来说，它能力提升，很大程度上来自于对数据的摄入量，数据越多，学习场景越多，能力提升也就越快。

一个很好的例子就是理想端到端智驾的训练。

理想汽车智能驾驶研发副总裁郎咸朋表示：“随着模型训练数据的增长，我们发现智能驾驶模型的性能提升规律也体现出了Scaling Law。数据的规模与质量已经成为模型性能的决定因素。

图片来源：网络

来看这张图，其中蓝色是100万Clips、绿色代表200万Clips、黄色代表300万Clips（现在已经增加到400万）。

可以看到，不同数据量规模训练，效果不一样。目前，城市工况平均行驶里程接管次数从最开始10公里接管一次，9月底版本差不多30公里接管一次。

郎咸朋透露，最新模型可以做到差不多40公里接管一次。「假设使用1000万Clips数据量，根据刚才趋势，城市工况接管里程将来到100公里。」

所以，理想还会加大剂量，继续训练。

目前理想汽车智能驾驶的训练里程已达25亿公里，预计今年年底将突破30亿公里。

图片来源：网络

当然，数据量是一方面，另一方面数据质量也非常关键。

从大的方向来看，自动驾驶90%的技术难题已经被攻克，自动驾驶核心难点已经不在车道居中、车道巡航，而在剩下的10% corner case（长尾场景，比如刚说的清明节火堆）的处理（现在也可能是7%或8%），这些场景的数据价值才更高，对智驾模型提升也更大。

而在车企们收集到的数据中，绝大部份都是常见和重复场景，说句不好听的，80%、90%数据都是垃圾。

这也是为什么像特斯拉、蔚来这些公司都在车上搞了「上报」功能，可以把智驾过程中遇到的问题甚至视频片段直接回传给特斯拉，供特斯拉后续进行数据训练。

理想则是将百万车主海量行驶数据，经过司机评价、场景挖掘来筛选出高质量样本，以作为模型的训练数据，不断改进现有基准。

这些数据，才是真正有价值的数据。

除了场景数据，还有驾驶员驾驶数据质量。

要明确的一点是，并不是所有人智驾数据都适合拿来喂给模型，有些人驾驶风格激进，有些人过于保守，最终落在智驾上的体现就是不太好。

所以，像华为，就是在拿开国宾车退休的人，收集他们的开车数据然后让智驾更平顺，更拟人。

如此一来，就又筛掉了一大批垃圾数据。

图片来源：网络

One Model 端到端就像水，你喂它什么（相当于给他容器），它就会越像什么。

所以，一旦有源源不断超品质量的数据输入，它的上限会非常高，最终会非常拟人，非常像一个老司机。

到这里，你可以理解数据对一段式端到端的重要性了。

这也是为什么车厂要扩大车队规模，扩大数据采集量的原因。

一段式端到端很好，但是也有很明显的短板。

今年8月余承东曾讲过这样一个案例，之前在美国试特斯拉FSD，碰到静止不动的白色货车/绿色货车，FSD不减速直接就撞过去了。

所以，余评价特斯拉智驾「上限高，下限低」，其实不无道理。

一段式端到端本质是一个黑盒系统，而且缺乏透明度，工程师很难去debug下限很低的问题，因为不知道问题出在哪里。

所以为了处理这些问题，采用一段式智驾方案的公司们想出了不同方式来补齐短板，提升体验：

理想在端到端之外，加入了VLM大语言模型，并引入了快系统和慢系统和概念。系统1 主要负责应对驾驶车辆时95%的常规场景，系统2由VLM视觉语言模型实现，具备逻辑推理、复杂分析和计算能力，在驾驶车辆时用于解决复杂甚至未知的交通场景，占日常驾驶的约5%，其接收传感器输入后，经过逻辑思考，输出决策信息给到系统1。系统1和系统2相互配合，分别确保大部分场景下的高效率和少数场景下的高上限。

图片来源：网络

Momenta则是引入一个「短期记忆、长期记忆」的概念，「短期记忆天级迭代，好的数据和方法得到验证后，再进入到长期记忆模型学习，达到更好的效果」，现在在智己车上你就能体验到Momenta的端到端。

元戎走的也是一段式路线，不过在一段式模型外，元戎还是加了一个「安全兜底策略」来作为兜底。明年元戎会基于NVIDIA Thor芯片研发VLAM（Vision-Language-Action Model，视觉-语言-动作模型），「通过VLAM，元戎启行的智能驾驶系统可以连接视觉、语言、动作，能识别和描述道路环境、交通标志、道路参与者等，理解交通场景中复杂的交互事件、隐藏的语义信息和逻辑推理。即便碰到罕见路标跟边缘场景，系统也能有高效的场景泛化能力和稳定的驾驶表现。」说人话就是，智驾上限更高，更拟人。

至于小鹏，从架构来看，采用的是「感知神经网络XNet+规控大模型XPlanner+AI大语言模型XBrain」三网策略，说实话很像是两段式端到端，不过官方表示「三张网络互相交叠、重合，且彼此之间采用神经元连接，而不是通过规则定义结构接口」。

两段式玩家

一段式流派玩家很多，但两段式也不少。

两段式的好处在从感知到规控不是完全黑盒，可以进行debug系统在决策时的逻辑，而且有更好的可解释性、安全性。

但是，就像商汤科技联合创始人、首席科学家，商汤绝影CEO王晓刚：「两段式『两段式』方案信息经过感知模型过滤后，再到规控模型，损失较多，同时还会面临无法全面理解整个复杂场景、泛化能力和解决corner case的能力比较弱等问题。」

所以，两段式也不算一个完美解决方案。

但是依然有不少玩家选择了这条路径。像现在公认的智驾头部华为以及百度Apollo都是两段式玩家。

图片来源：网络

先说华为。华为的端到端用的是「GOD网络（感知）+PDP网络（规控）」的端到端组合，考虑到端到端还有20-30%的「幻觉」问题，即系统可能会产生与现实世界不符的感知或预测结果，有点类似于人类在某些情况下出现的幻觉，所以为了保证安全下限，华为在架构里加了一个保底的「本能安全网络」，提供类人的智驾。

百度Apollo也是目前两段式端到端方案的拥趸。在百度看来，端到端改造上也是逐步演进也不是一蹴而就，即使是两段式，一蹴而就会有很大的风险，所以是逐步逐步迭代演进的。「安全是规模化部署增加时的第一要素，这也是我们做技术选型考虑非常重的一点。」

此外，全球供应商巨头博世也给出自己的判断：两三年之内，两段式端到端方案是短期内较为理性的量产主流方案。

博世端到端智驾的规划是这样的：

2024年，基于 BEV+Transformer的感知系统+基于规则的预测、决策和规划系统

2025年，两段式端到端，感知端到端系统+决策和规划到端系统

2026年，一段式端到端模型+Principle-based safety check

图片来源：网络

总之，一段式和两段式各有优缺点，没有高下之分，最终还是要看最终实际体验。

而从目前城区智驾功能推进速度以及整体体验来看，华为依然是最快的那一个，之一。

端到端只是一个开始

在元戎看来，端到端只是进入智能智驾的一个入场（开端）。

「至少就目前而言，大语言模型、生成式人工智能、端到端还没有实现完全打通，可能在下一步，可以做到三位一体。」

所以，高阶智驾的卷还在后面。

说一个容易被大家忽略的细节：在其他玩家刚转入城区智驾竞争，华为小鹏理想已经开始瞄着L3去了。

在2024中国重庆汽车论坛上，理想董事长李想表示：「我们认为最早在今年年底，最晚在明年的上半年，真正的L3（有监督的自动驾驶），就可以批量向用户交付。」

10月23日，理想「端到端+VLM」已经开启了全量推送，随着这一波推送，理想能拿到的智驾训练数据将从之前的万人来到几十万人，后续智驾进步速度值得关注。

图片来源：网络

至于华为，在前不久世界智能网联汽车大会上，华为ADS已经规划到ADS4.0。而且目标是高速L3商用，城区L3试点。

小鹏也曾表示，2025年小鹏汽车将在国内实现类L4级智驾体验。

图片来源：网络

总之，接下来这几年，自动驾驶行业玩家与玩家之间的差距正在逐渐拉大，即便是头部玩家，也会看到更加明显的技术差距。

技术进步确实值得期待，但在卷技术之外，其实还有一点不能忽视，那就是安全。

技术进步确实重要，但是背后的安全才是智驾的第一要义。

最近一段时间，因为智驾失误不管是在行车还是泊车方面，都出了不少事情，我想大家也关注到了。

我觉得应该引起企业反思，企业不能为了抢占舆论高地、为了快而快，否则会适得其反。

如果要在端到端智驾「更激进的技术落地」和「保守的安全」中选一个，那我宁愿选后者。

亲爱的读者们，不设置星标，很容易错过我们的推送，也无法看到封面图片。请星标“未来汽车Daily”，及时接收每篇推文，期待为您带来更多更专业的行业报道。

头图来源| 网络

作者| 建武

编辑| 苏鹏

目前，端到端智驾非常火热。聊到高阶智驾，如果不说自己用上端到端，可能还会被说「不专业」。

虽然大家都叫「端到端」，但实际上，各家车企实现路径也不尽相同。

目前行业主要分为一段式和两段式两个流派。

一段式方案是将感知、决策、规划等模块整合到一个模型中，直接从传感器输入外部环境信息，直接输出自车的行驶轨迹。

两段式方案通常由两个主要部分组成，即感知模型和规控模型。信息在经过感知模型过滤后，再到规控模型。

对于这两种路线，各家车企看法也不相同。

一段式玩家

关于一段式端到端的好处，Momenta CEO 曹旭东举了一个很有意思的例子：清明节碰到烧纸钱火堆，怎么去应对这样的场景。

一段式端到端有极强的学习能力，所以对数据量的要求非常高。

这里的非常高表现在两个方面：

1、数据量

2、数据质量

对于一段式端到端来说，它能力提升，很大程度上来自于对数据的摄入量，数据越多，学习场景越多，能力提升也就越快。

一个很好的例子就是理想端到端智驾的训练。

图片来源：网络

来看这张图，其中蓝色是100万Clips、绿色代表200万Clips、黄色代表300万Clips（现在已经增加到400万）。

可以看到，不同数据量规模训练，效果不一样。目前，城市工况平均行驶里程接管次数从最开始10公里接管一次，9月底版本差不多30公里接管一次。

郎咸朋透露，最新模型可以做到差不多40公里接管一次。「假设使用1000万Clips数据量，根据刚才趋势，城市工况接管里程将来到100公里。」

所以，理想还会加大剂量，继续训练。

目前理想汽车智能驾驶的训练里程已达25亿公里，预计今年年底将突破30亿公里。

图片来源：网络

当然，数据量是一方面，另一方面数据质量也非常关键。

而在车企们收集到的数据中，绝大部份都是常见和重复场景，说句不好听的，80%、90%数据都是垃圾。

理想则是将百万车主海量行驶数据，经过司机评价、场景挖掘来筛选出高质量样本，以作为模型的训练数据，不断改进现有基准。

这些数据，才是真正有价值的数据。

除了场景数据，还有驾驶员驾驶数据质量。

要明确的一点是，并不是所有人智驾数据都适合拿来喂给模型，有些人驾驶风格激进，有些人过于保守，最终落在智驾上的体现就是不太好。

所以，像华为，就是在拿开国宾车退休的人，收集他们的开车数据然后让智驾更平顺，更拟人。

如此一来，就又筛掉了一大批垃圾数据。

图片来源：网络

One Model 端到端就像水，你喂它什么（相当于给他容器），它就会越像什么。

所以，一旦有源源不断超品质量的数据输入，它的上限会非常高，最终会非常拟人，非常像一个老司机。

到这里，你可以理解数据对一段式端到端的重要性了。

这也是为什么车厂要扩大车队规模，扩大数据采集量的原因。

一段式端到端很好，但是也有很明显的短板。

今年8月余承东曾讲过这样一个案例，之前在美国试特斯拉FSD，碰到静止不动的白色货车/绿色货车，FSD不减速直接就撞过去了。

所以，余评价特斯拉智驾「上限高，下限低」，其实不无道理。

一段式端到端本质是一个黑盒系统，而且缺乏透明度，工程师很难去debug下限很低的问题，因为不知道问题出在哪里。

所以为了处理这些问题，采用一段式智驾方案的公司们想出了不同方式来补齐短板，提升体验：

图片来源：网络

两段式玩家

一段式流派玩家很多，但两段式也不少。

两段式的好处在从感知到规控不是完全黑盒，可以进行debug系统在决策时的逻辑，而且有更好的可解释性、安全性。

所以，两段式也不算一个完美解决方案。

但是依然有不少玩家选择了这条路径。像现在公认的智驾头部华为以及百度Apollo都是两段式玩家。

图片来源：网络

此外，全球供应商巨头博世也给出自己的判断：两三年之内，两段式端到端方案是短期内较为理性的量产主流方案。

博世端到端智驾的规划是这样的：

2024年，基于 BEV+Transformer的感知系统+基于规则的预测、决策和规划系统

2025年，两段式端到端，感知端到端系统+决策和规划到端系统

2026年，一段式端到端模型+Principle-based safety check

图片来源：网络

总之，一段式和两段式各有优缺点，没有高下之分，最终还是要看最终实际体验。

而从目前城区智驾功能推进速度以及整体体验来看，华为依然是最快的那一个，之一。

端到端只是一个开始

在元戎看来，端到端只是进入智能智驾的一个入场（开端）。

「至少就目前而言，大语言模型、生成式人工智能、端到端还没有实现完全打通，可能在下一步，可以做到三位一体。」

所以，高阶智驾的卷还在后面。

说一个容易被大家忽略的细节：在其他玩家刚转入城区智驾竞争，华为小鹏理想已经开始瞄着L3去了。

图片来源：网络

至于华为，在前不久世界智能网联汽车大会上，华为ADS已经规划到ADS4.0。而且目标是高速L3商用，城区L3试点。

小鹏也曾表示，2025年小鹏汽车将在国内实现类L4级智驾体验。

图片来源：网络

总之，接下来这几年，自动驾驶行业玩家与玩家之间的差距正在逐渐拉大，即便是头部玩家，也会看到更加明显的技术差距。

技术进步确实值得期待，但在卷技术之外，其实还有一点不能忽视，那就是安全。

技术进步确实重要，但是背后的安全才是智驾的第一要义。

最近一段时间，因为智驾失误不管是在行车还是泊车方面，都出了不少事情，我想大家也关注到了。

我觉得应该引起企业反思，企业不能为了抢占舆论高地、为了快而快，否则会适得其反。

如果要在端到端智驾「更激进的技术落地」和「保守的安全」中选一个，那我宁愿选后者。

展开

打开“财经头条”阅读更多精彩资讯