关于智驾端到端,到底一段式好还是两段式好?

未来汽车Daily

1周前

一段式端到端有极强的学习能力,所以对数据量的要求非常高。...一段式端到端本质是一个黑盒系统,而且缺乏透明度,工程师很难去debug下限很低的问题,因为不知道问题出在哪里。

头图来源| 网络

作者| 建武

编辑| 苏鹏

目前,端到端智驾非常火热。聊到高阶智驾,如果不说自己用上端到端,可能还会被说「不专业」。
虽然大家都叫「端到端」,但实际上,各家车企实现路径也不尽相同。
目前行业主要分为一段式和两段式两个流派。
一段式方案是将感知、决策、规划等模块整合到一个模型中,直接从传感器输入外部环境信息,直接输出自车的行驶轨迹。
两段式方案通常由两个主要部分组成,即感知模型和规控模型。信息在经过感知模型过滤后,再到规控模型。
对于这两种路线,各家车企看法也不相同。

一段式玩家

一段式端到端的优势在于,只要智驾大模型之前见过、学习过如何应对这样的场景,即便感知侧没有对未知物体定义,依然能直接做出正确的应对策略。
关于一段式端到端的好处,Momenta CEO 曹旭东举了一个很有意思的例子:清明节碰到烧纸钱火堆,怎么去应对这样的场景。
「碰到烧纸钱火堆,我也很紧张,不知道能不能避让,结果我开过去确实避让成功了,我专门开回去测试了五遍,都能成功绕过火堆」曹旭东激动的说道。
一段式端到端有极强的学习能力,所以对数据量的要求非常高。
这里的非常高表现在两个方面:
1、数据量
2、数据质量
对于一段式端到端来说,它能力提升,很大程度上来自于对数据的摄入量,数据越多,学习场景越多,能力提升也就越快。
一个很好的例子就是理想端到端智驾的训练。
理想汽车智能驾驶研发副总裁郎咸朋表示:“随着模型训练数据的增长,我们发现智能驾驶模型的性能提升规律也体现出了Scaling Law。数据的规模与质量已经成为模型性能的决定因素。
图片来源:网络
来看这张图,其中蓝色是100万Clips、绿色代表200万Clips、黄色代表300万Clips(现在已经增加到400万)。
可以看到,不同数据量规模训练,效果不一样。目前,城市工况平均行驶里程接管次数从最开始10公里接管一次,9月底版本差不多30公里接管一次。
郎咸朋透露,最新模型可以做到差不多40公里接管一次。「假设使用1000万Clips数据量,根据刚才趋势,城市工况接管里程将来到100公里。」
所以,理想还会加大剂量,继续训练。
目前理想汽车智能驾驶的训练里程已达25亿公里,预计今年年底将突破30亿公里。
图片来源:网络
当然,数据量是一方面,另一方面数据质量也非常关键。
从大的方向来看,自动驾驶90%的技术难题已经被攻克,自动驾驶核心难点已经不在车道居中、车道巡航,而在剩下的10% corner case(长尾场景,比如刚说的清明节火堆)的处理(现在也可能是7%或8%),这些场景的数据价值才更高,对智驾模型提升也更大。
而在车企们收集到的数据中,绝大部份都是常见和重复场景,说句不好听的,80%、90%数据都是垃圾。
这也是为什么像特斯拉、蔚来这些公司都在车上搞了「上报」功能,可以把智驾过程中遇到的问题甚至视频片段直接回传给特斯拉,供特斯拉后续进行数据训练。
理想则是将百万车主海量行驶数据,经过司机评价、场景挖掘来筛选出高质量样本,以作为模型的训练数据,不断改进现有基准。
这些数据,才是真正有价值的数据。
除了场景数据,还有驾驶员驾驶数据质量。
要明确的一点是,并不是所有人智驾数据都适合拿来喂给模型,有些人驾驶风格激进,有些人过于保守,最终落在智驾上的体现就是不太好。
所以,像华为,就是在拿开国宾车退休的人,收集他们的开车数据然后让智驾更平顺,更拟人。
如此一来,就又筛掉了一大批垃圾数据。
图片来源:网络
One Model 端到端就像水,你喂它什么(相当于给他容器),它就会越像什么。
所以,一旦有源源不断超品质量的数据输入,它的上限会非常高,最终会非常拟人,非常像一个老司机。
到这里,你可以理解数据对一段式端到端的重要性了。
这也是为什么车厂要扩大车队规模,扩大数据采集量的原因。
一段式端到端很好,但是也有很明显的短板。
今年8月余承东曾讲过这样一个案例,之前在美国试特斯拉FSD,碰到静止不动的白色货车/绿色货车,FSD不减速直接就撞过去了。
所以,余评价特斯拉智驾「上限高,下限低」,其实不无道理。
一段式端到端本质是一个黑盒系统,而且缺乏透明度,工程师很难去debug下限很低的问题,因为不知道问题出在哪里。
所以为了处理这些问题,采用一段式智驾方案的公司们想出了不同方式来补齐短板,提升体验:
理想在端到端之外,加入了VLM大语言模型,并引入了快系统和慢系统和概念。系统1 主要负责应对驾驶车辆时95%的常规场景,系统2由VLM视觉语言模型实现,具备逻辑推理、复杂分析和计算能力,在驾驶车辆时用于解决复杂甚至未知的交通场景,占日常驾驶的约5%,其接收传感器输入后,经过逻辑思考,输出决策信息给到系统1。系统1和系统2相互配合,分别确保大部分场景下的高效率和少数场景下的高上限。
图片来源:网络
Momenta则是引入一个「短期记忆、长期记忆」的概念,「短期记忆天级迭代 ,好的数据和方法得到验证后,再进入到长期记忆模型学习,达到更好的效果」,现在在智己车上你就能体验到Momenta的端到端。
元戎走的也是一段式路线,不过在一段式模型外,元戎还是加了一个「安全兜底策略」来作为兜底。明年元戎会基于NVIDIA Thor芯片研发VLAM(Vision-Language-Action Model,视觉-语言-动作模型),「通过VLAM,元戎启行的智能驾驶系统可以连接视觉、语言、动作,能识别和描述道路环境、交通标志、道路参与者等,理解交通场景中复杂的交互事件、隐藏的语义信息和逻辑推理。即便碰到罕见路标跟边缘场景,系统也能有高效的场景泛化能力和稳定的驾驶表现。」说人话就是,智驾上限更高,更拟人。
至于小鹏,从架构来看,采用的是「感知神经网络XNet+规控大模型XPlanner+AI大语言模型XBrain」三网策略,说实话很像是两段式端到端,不过官方表示「三张网络互相交叠、重合,且彼此之间采用神经元连接,而不是通过规则定义结构接口」。

两段式玩家

一段式流派玩家很多,但两段式也不少。
两段式的好处在从感知到规控不是完全黑盒,可以进行debug系统在决策时的逻辑,而且有更好的可解释性、安全性。
但是,就像商汤科技联合创始人、首席科学家,商汤绝影CEO王晓刚:「两段式『两段式』方案信息经过感知模型过滤后,再到规控模型,损失较多,同时还会面临无法全面理解整个复杂场景、泛化能力和解决corner case的能力比较弱等问题。」
所以,两段式也不算一个完美解决方案。
但是依然有不少玩家选择了这条路径。像现在公认的智驾头部华为以及百度Apollo都是两段式玩家。
图片来源:网络
先说华为。华为的端到端用的是「GOD网络(感知)+PDP网络(规控)」的端到端组合,考虑到端到端还有20-30%的「幻觉」问题,即系统可能会产生与现实世界不符的感知或预测结果,有点类似于人类在某些情况下出现的幻觉,所以为了保证安全下限,华为在架构里加了一个保底的「本能安全网络」,提供类人的智驾。
百度Apollo也是目前两段式端到端方案的拥趸。在百度看来,端到端改造上也是逐步演进也不是一蹴而就,即使是两段式,一蹴而就会有很大的风险,所以是逐步逐步迭代演进的。「安全是规模化部署增加时的第一要素,这也是我们做技术选型考虑非常重的一点。」
此外,全球供应商巨头博世也给出自己的判断:两三年之内,两段式端到端方案是短期内较为理性的量产主流方案。
博世端到端智驾的规划是这样的:
2024年,基于 BEV+Transformer的感知系统+基于规则的预测、决策和规划系统
2025年,两段式端到端,感知端到端系统+决策和规划到端系统
2026年,一段式端到端模型+Principle-based safety check
图片来源:网络
总之,一段式和两段式各有优缺点,没有高下之分,最终还是要看最终实际体验。
而从目前城区智驾功能推进速度以及整体体验来看,华为依然是最快的那一个,之一。

端到端只是一个开始

在元戎看来,端到端只是进入智能智驾的一个入场(开端)。
「至少就目前而言,大语言模型、生成式人工智能、端到端还没有实现完全打通,可能在下一步,可以做到三位一体。」
所以,高阶智驾的卷还在后面。
说一个容易被大家忽略的细节:在其他玩家刚转入城区智驾竞争,华为小鹏理想已经开始瞄着L3去了。
在2024中国重庆汽车论坛上,理想董事长李想表示:「我们认为最早在今年年底,最晚在明年的上半年,真正的L3(有监督的自动驾驶),就可以批量向用户交付。」
10月23日,理想「端到端+VLM」已经开启了全量推送,随着这一波推送,理想能拿到的智驾训练数据将从之前的万人来到几十万人,后续智驾进步速度值得关注。
图片来源:网络
至于华为,在前不久世界智能网联汽车大会上,华为ADS已经规划到ADS4.0。而且目标是高速L3商用,城区L3试点。
小鹏也曾表示,2025年小鹏汽车将在国内实现类L4级智驾体验。
图片来源:网络
总之,接下来这几年,自动驾驶行业玩家与玩家之间的差距正在逐渐拉大,即便是头部玩家,也会看到更加明显的技术差距。
技术进步确实值得期待,但在卷技术之外,其实还有一点不能忽视,那就是安全。
技术进步确实重要,但是背后的安全才是智驾的第一要义。
最近一段时间,因为智驾失误不管是在行车还是泊车方面,都出了不少事情,我想大家也关注到了。
我觉得应该引起企业反思,企业不能为了抢占舆论高地、为了快而快,否则会适得其反。
如果要在端到端智驾「更激进的技术落地」和「保守的安全」中选一个,那我宁愿选后者。

亲爱的读者们,不设置星标,很容易错过我们的推送,也无法看到封面图片。请星标“未来汽车Daily”,及时接收每篇推文,期待为您带来更多更专业的行业报道。

一段式端到端有极强的学习能力,所以对数据量的要求非常高。...一段式端到端本质是一个黑盒系统,而且缺乏透明度,工程师很难去debug下限很低的问题,因为不知道问题出在哪里。

头图来源| 网络

作者| 建武

编辑| 苏鹏

目前,端到端智驾非常火热。聊到高阶智驾,如果不说自己用上端到端,可能还会被说「不专业」。
虽然大家都叫「端到端」,但实际上,各家车企实现路径也不尽相同。
目前行业主要分为一段式和两段式两个流派。
一段式方案是将感知、决策、规划等模块整合到一个模型中,直接从传感器输入外部环境信息,直接输出自车的行驶轨迹。
两段式方案通常由两个主要部分组成,即感知模型和规控模型。信息在经过感知模型过滤后,再到规控模型。
对于这两种路线,各家车企看法也不相同。

一段式玩家

一段式端到端的优势在于,只要智驾大模型之前见过、学习过如何应对这样的场景,即便感知侧没有对未知物体定义,依然能直接做出正确的应对策略。
关于一段式端到端的好处,Momenta CEO 曹旭东举了一个很有意思的例子:清明节碰到烧纸钱火堆,怎么去应对这样的场景。
「碰到烧纸钱火堆,我也很紧张,不知道能不能避让,结果我开过去确实避让成功了,我专门开回去测试了五遍,都能成功绕过火堆」曹旭东激动的说道。
一段式端到端有极强的学习能力,所以对数据量的要求非常高。
这里的非常高表现在两个方面:
1、数据量
2、数据质量
对于一段式端到端来说,它能力提升,很大程度上来自于对数据的摄入量,数据越多,学习场景越多,能力提升也就越快。
一个很好的例子就是理想端到端智驾的训练。
理想汽车智能驾驶研发副总裁郎咸朋表示:“随着模型训练数据的增长,我们发现智能驾驶模型的性能提升规律也体现出了Scaling Law。数据的规模与质量已经成为模型性能的决定因素。
图片来源:网络
来看这张图,其中蓝色是100万Clips、绿色代表200万Clips、黄色代表300万Clips(现在已经增加到400万)。
可以看到,不同数据量规模训练,效果不一样。目前,城市工况平均行驶里程接管次数从最开始10公里接管一次,9月底版本差不多30公里接管一次。
郎咸朋透露,最新模型可以做到差不多40公里接管一次。「假设使用1000万Clips数据量,根据刚才趋势,城市工况接管里程将来到100公里。」
所以,理想还会加大剂量,继续训练。
目前理想汽车智能驾驶的训练里程已达25亿公里,预计今年年底将突破30亿公里。
图片来源:网络
当然,数据量是一方面,另一方面数据质量也非常关键。
从大的方向来看,自动驾驶90%的技术难题已经被攻克,自动驾驶核心难点已经不在车道居中、车道巡航,而在剩下的10% corner case(长尾场景,比如刚说的清明节火堆)的处理(现在也可能是7%或8%),这些场景的数据价值才更高,对智驾模型提升也更大。
而在车企们收集到的数据中,绝大部份都是常见和重复场景,说句不好听的,80%、90%数据都是垃圾。
这也是为什么像特斯拉、蔚来这些公司都在车上搞了「上报」功能,可以把智驾过程中遇到的问题甚至视频片段直接回传给特斯拉,供特斯拉后续进行数据训练。
理想则是将百万车主海量行驶数据,经过司机评价、场景挖掘来筛选出高质量样本,以作为模型的训练数据,不断改进现有基准。
这些数据,才是真正有价值的数据。
除了场景数据,还有驾驶员驾驶数据质量。
要明确的一点是,并不是所有人智驾数据都适合拿来喂给模型,有些人驾驶风格激进,有些人过于保守,最终落在智驾上的体现就是不太好。
所以,像华为,就是在拿开国宾车退休的人,收集他们的开车数据然后让智驾更平顺,更拟人。
如此一来,就又筛掉了一大批垃圾数据。
图片来源:网络
One Model 端到端就像水,你喂它什么(相当于给他容器),它就会越像什么。
所以,一旦有源源不断超品质量的数据输入,它的上限会非常高,最终会非常拟人,非常像一个老司机。
到这里,你可以理解数据对一段式端到端的重要性了。
这也是为什么车厂要扩大车队规模,扩大数据采集量的原因。
一段式端到端很好,但是也有很明显的短板。
今年8月余承东曾讲过这样一个案例,之前在美国试特斯拉FSD,碰到静止不动的白色货车/绿色货车,FSD不减速直接就撞过去了。
所以,余评价特斯拉智驾「上限高,下限低」,其实不无道理。
一段式端到端本质是一个黑盒系统,而且缺乏透明度,工程师很难去debug下限很低的问题,因为不知道问题出在哪里。
所以为了处理这些问题,采用一段式智驾方案的公司们想出了不同方式来补齐短板,提升体验:
理想在端到端之外,加入了VLM大语言模型,并引入了快系统和慢系统和概念。系统1 主要负责应对驾驶车辆时95%的常规场景,系统2由VLM视觉语言模型实现,具备逻辑推理、复杂分析和计算能力,在驾驶车辆时用于解决复杂甚至未知的交通场景,占日常驾驶的约5%,其接收传感器输入后,经过逻辑思考,输出决策信息给到系统1。系统1和系统2相互配合,分别确保大部分场景下的高效率和少数场景下的高上限。
图片来源:网络
Momenta则是引入一个「短期记忆、长期记忆」的概念,「短期记忆天级迭代 ,好的数据和方法得到验证后,再进入到长期记忆模型学习,达到更好的效果」,现在在智己车上你就能体验到Momenta的端到端。
元戎走的也是一段式路线,不过在一段式模型外,元戎还是加了一个「安全兜底策略」来作为兜底。明年元戎会基于NVIDIA Thor芯片研发VLAM(Vision-Language-Action Model,视觉-语言-动作模型),「通过VLAM,元戎启行的智能驾驶系统可以连接视觉、语言、动作,能识别和描述道路环境、交通标志、道路参与者等,理解交通场景中复杂的交互事件、隐藏的语义信息和逻辑推理。即便碰到罕见路标跟边缘场景,系统也能有高效的场景泛化能力和稳定的驾驶表现。」说人话就是,智驾上限更高,更拟人。
至于小鹏,从架构来看,采用的是「感知神经网络XNet+规控大模型XPlanner+AI大语言模型XBrain」三网策略,说实话很像是两段式端到端,不过官方表示「三张网络互相交叠、重合,且彼此之间采用神经元连接,而不是通过规则定义结构接口」。

两段式玩家

一段式流派玩家很多,但两段式也不少。
两段式的好处在从感知到规控不是完全黑盒,可以进行debug系统在决策时的逻辑,而且有更好的可解释性、安全性。
但是,就像商汤科技联合创始人、首席科学家,商汤绝影CEO王晓刚:「两段式『两段式』方案信息经过感知模型过滤后,再到规控模型,损失较多,同时还会面临无法全面理解整个复杂场景、泛化能力和解决corner case的能力比较弱等问题。」
所以,两段式也不算一个完美解决方案。
但是依然有不少玩家选择了这条路径。像现在公认的智驾头部华为以及百度Apollo都是两段式玩家。
图片来源:网络
先说华为。华为的端到端用的是「GOD网络(感知)+PDP网络(规控)」的端到端组合,考虑到端到端还有20-30%的「幻觉」问题,即系统可能会产生与现实世界不符的感知或预测结果,有点类似于人类在某些情况下出现的幻觉,所以为了保证安全下限,华为在架构里加了一个保底的「本能安全网络」,提供类人的智驾。
百度Apollo也是目前两段式端到端方案的拥趸。在百度看来,端到端改造上也是逐步演进也不是一蹴而就,即使是两段式,一蹴而就会有很大的风险,所以是逐步逐步迭代演进的。「安全是规模化部署增加时的第一要素,这也是我们做技术选型考虑非常重的一点。」
此外,全球供应商巨头博世也给出自己的判断:两三年之内,两段式端到端方案是短期内较为理性的量产主流方案。
博世端到端智驾的规划是这样的:
2024年,基于 BEV+Transformer的感知系统+基于规则的预测、决策和规划系统
2025年,两段式端到端,感知端到端系统+决策和规划到端系统
2026年,一段式端到端模型+Principle-based safety check
图片来源:网络
总之,一段式和两段式各有优缺点,没有高下之分,最终还是要看最终实际体验。
而从目前城区智驾功能推进速度以及整体体验来看,华为依然是最快的那一个,之一。

端到端只是一个开始

在元戎看来,端到端只是进入智能智驾的一个入场(开端)。
「至少就目前而言,大语言模型、生成式人工智能、端到端还没有实现完全打通,可能在下一步,可以做到三位一体。」
所以,高阶智驾的卷还在后面。
说一个容易被大家忽略的细节:在其他玩家刚转入城区智驾竞争,华为小鹏理想已经开始瞄着L3去了。
在2024中国重庆汽车论坛上,理想董事长李想表示:「我们认为最早在今年年底,最晚在明年的上半年,真正的L3(有监督的自动驾驶),就可以批量向用户交付。」
10月23日,理想「端到端+VLM」已经开启了全量推送,随着这一波推送,理想能拿到的智驾训练数据将从之前的万人来到几十万人,后续智驾进步速度值得关注。
图片来源:网络
至于华为,在前不久世界智能网联汽车大会上,华为ADS已经规划到ADS4.0。而且目标是高速L3商用,城区L3试点。
小鹏也曾表示,2025年小鹏汽车将在国内实现类L4级智驾体验。
图片来源:网络
总之,接下来这几年,自动驾驶行业玩家与玩家之间的差距正在逐渐拉大,即便是头部玩家,也会看到更加明显的技术差距。
技术进步确实值得期待,但在卷技术之外,其实还有一点不能忽视,那就是安全。
技术进步确实重要,但是背后的安全才是智驾的第一要义。
最近一段时间,因为智驾失误不管是在行车还是泊车方面,都出了不少事情,我想大家也关注到了。
我觉得应该引起企业反思,企业不能为了抢占舆论高地、为了快而快,否则会适得其反。
如果要在端到端智驾「更激进的技术落地」和「保守的安全」中选一个,那我宁愿选后者。

亲爱的读者们,不设置星标,很容易错过我们的推送,也无法看到封面图片。请星标“未来汽车Daily”,及时接收每篇推文,期待为您带来更多更专业的行业报道。

展开
打开“财经头条”阅读更多精彩资讯
APP内打开