端到端智驾时代如何决胜?小鹏汽车称真正的竞赛在云端

车东西

3周前

小鹏汽车在国内快速推进了端到端智能驾驶。...小鹏云端大模型的参数量是车端的80倍,云端强化训练后,车端大模型的上限大幅提高。

算力上的提前布局,让小鹏汽车在国内率先实现端到端智能驾驶大模型量产上车。小鹏汽车认为,端到端只是开始,不是终局,真正的竞赛正在云端展开,云端大模型才是制胜关键。拥有强大算力的阿里云,支撑小鹏汽车端到端大模型的快速迭代。
编辑 |  Juice

智能驾驶近两年的提速,端到端技术无疑是关键动因。

2024年10月24日,小鹏汽车宣布AI天玑5.4.0正式开启公测,并首发搭载在小鹏P7+上。新版本为小鹏汽车带来了最强AI智能驾驶功能,根据数据统计,已经享受到公测版的P7+用户,在用户渗透率和里程渗透率上均取得了显著提升。早些时候,小鹏汽车已经完成了国内首个端到端智能驾驶大模型量产上车。

▲小鹏汽车发布AI天玑5.4.0系统,大幅提升智能驾驶能力

这一系列的成绩,源于小鹏汽车多年来全力投入AI的决心。早在2022年,小鹏汽车就率先完成城市导航辅助驾驶(NGP)的落地。当时,小鹏汽车自动驾驶团队就在思考,是否需要更进一步提升AI泛化能力。同年4月,小鹏汽车开始尝试对传统智能驾驶中的感知、融合、预测、规划、控制、定位等技术模块进行融合。这也成为小鹏汽车探索端到端大模型的雏形。

小鹏汽车董事长何小鹏在谈及端到端智能驾驶大模型时强调,“往后10年、20年,我不知道今天的大模型逻辑是否会适用,但它一定会比之前的算法或规则模型都要强。”

智能驾驶新一轮竞争正围绕算法、算力、数据三要素展开,出现任何一块短板,都将引发木桶效应。这场竞赛中,小鹏汽车和阿里云一直在并肩前行。

01.
AI席卷智能驾驶 
小鹏汽车笃定端到端技术路线

端到端(End-to-End),起初并非源于智能驾驶,而是多用于深度学习领域的一套方法,并且在语音识别、自然语言处理等领域已有比较多的学术研究。其设计原理是神经网络在学习中不进行分模块或分阶段训练,直接从输入数据到输出结果,减少人为干预和预处理的需求,类似于encoder-decoder架构。

端到端技术能够避免传统人工特征提取中的信息损失,提高模型的效率和准确性,简化训练流水线。

在智能驾驶领域,端到端智能驾驶方案利用统一的深度学习神经网络,将感知、规划与控制等多个功能模块整合为一体。将摄像头、传感器实时采集的原始数据作为输入,直接输出为转向、加速、制动等驾驶指令,这种一体化架构实现了信息无缝传输并降低延迟,让汽车反应更加顺滑。特斯拉在北美率先推出的FSD V12版本,就采用了端到端技术。同样,小鹏汽车在国内快速推进了端到端智能驾驶。

小鹏汽车选择的是“云端大模型”路线,通过构建云端大模型,然后将云端大模型蒸馏到车端,在车端进行模型部署。小鹏云端大模型的参数量是车端的80倍,云端强化训练后,车端大模型的上限大幅提高。

▲小鹏云端大模型的参数量是车端的80倍

据小鹏汽车自动驾驶产品高级总监袁婷婷介绍,端到端往往包含非常复杂的深度学习网络。但大模型的黑盒问题导致难以解释其决策过程和推理逻辑,尤其是表现出不良效果后,不可解释性还增加了解决和验证的难度,更无法保证其安全可靠性。

基于此,根据端到端的思路,小鹏汽车随即推出了“三网合一”架构,其中XNet类似于人的眼睛,对现实世界中的可通行空间进行3D还原;XPlanner类似于人的肌肉和小脑直觉,通过海量数据的不间断训练,优化驾驶策略;XBrain类似于人的大脑,会进行更深入的理解和意图推理,包括时序、环境、路牌文字等。三网以全局性视角联合执行驾驶任务,可以对模型进行联合预训练和标注,同时三网又各有侧重,出现问题可快速诊断定位,了解模型和系统的缺陷问题。更重要的是,在驾驶安全性上,三网使得系统应对一些特殊、紧急场景的上限变得更高的同时,也需要一定的安全措施保证下限。

在端到端技术的加持下,小鹏汽车整体迈向了以轻地图、轻雷达、重算力为核心的智能驾驶方案。针对复杂路况,能够做到点到点的辅助驾驶能力,包括自动通过高速ETC闸机、红绿灯识别、拥堵路段跟车以及主动变道超车等等。尤其在体验和流畅性上,用户基本感觉不到任何断点。

小鹏汽车自动驾驶产品高级总监袁婷婷指出,行业内一般用记忆泊车VPA(Valet Parking Assist)+NOA(Navigate on Autopilot)城市辅助驾驶的方式来实现车位到车位,这也是小鹏在2021年采用的方案。但使用拼接方案,就会存在卡顿,比如汽车行驶到停车场与公开道路的交汇点时,会因切换软件导致卡壳现象。

▲目前行业内主要有三种端到端技术路线

目前小鹏汽车已经通过端到端智能驾驶大模型对其能力进行了全面升级,在行业内首个用一套智能驾驶软件以及基于“端到端大模型”实现“车位到车位”。在最新的测试场景中,车位到车位的整条链路——从园区内、地库内,到过闸机,再到公开道路的衔接,都能以更加流畅的体验方式实现。此外,路线规划也能够无感生成,让驾驶变得更加便捷高效。

“丝滑、笃定、直觉性”这些用于形容老司机开车一样的驾驶体验,正在小鹏汽车端到端智能驾驶系统上呈现。

可以看到,端到端的出现,突破了原先依靠规则驱动的智能驾驶研发体系,至少在当前阶段,端到端已是自动驾驶竞争的关键技术路径之一。

02.
真正适配智能驾驶的算力底座

多年来在端到端智能驾驶大模型上的投入,模型参数量的急剧扩张,使得小鹏汽车智能驾驶系统和功能迭代速度持续加快。

由于当前车端芯片算力的限制,即便采用两片Orin芯片,能支持的车端模型参数量依然有限。而云端大模型可以全面吸纳智能驾驶数据,不遗漏重点信息细节。通过大量数据训练,尽可能穷尽智能驾驶中的长尾问题,以覆盖更多驾驶场景,使XNGP实现L3级的智能驾驶体验。

训练一个云端大模型,对大规模高性能算力以及数据存储和处理提出了非常高的要求。其一,提高并行训练性能和利用率的要求,这对云基础设施包括网络互联、带宽,以及系统软件优化等带来了挑战;其二,对模型训练持久稳定性的要求,比如模型训练中断,训练出现问题后能否快速拉起任务,缩短故障时间;其三,大规模多模态数据的存储与处理能力,实现并行训练的高性能、高吞吐,满足模型训练不断提升的数据量增长需求;其四,海量数据的存储成本要求,在满足数据处理性能要求的前提下,通过支持数据分层存储,实现最优的成本。

实现这些要求并非易事。大模型的预训练需要集群化,构建万卡甚至更大规模的集群,且整个集群需要组成一个庞大的“整体”。形象来说,就像每一排都有两个人且两人之间把腿绑在一起,共同前进。只有每张GPU卡、每台机器都以相同的“步伐”前进,才能提升整体的模型训练效率。

早在2022年,小鹏汽车就与阿里云在乌兰察布建成了当时中国最大的自动驾驶智算中心“扶摇”,用于自动驾驶模型训练。“扶摇”依托于阿里云灵骏智算集群构建,该集群是阿里云面向AI时代打造的智能算力基础设施,支撑了小鹏汽车端到端智能驾驶大模型的快速迭代。

▲2022年小鹏汽车与阿里云合作建立自动驾驶智算中心

随着模型规模扩大到百亿甚至千亿量级,一次训练任务需要更多GPU协同,规模会放大很多问题。

首先碰到的问题就是扩展集群规模是否能带来训练任务相同倍数的线性加速。为了将“相同步伐”效率提升到极致,阿里云升级到HPN 7.0网络架构,把网络能力推向一个全新的高度。通过3.2Tbps高性能RDMA网络连接,让服务器之间的通讯更顺畅;自研的拥塞控制算法解决了路由的复杂度和数据交换的冲突;同时,训练过程实现自动网络拓扑感知调度,为大模型训练自动调度最佳网络拓扑的计算节点,从而减少通信开销,进一步提升训练效率。

此外,计算和存储流量分离大大减少存储IO和计算通信的互相干扰,进而提升了整体GPU集群的计算效率。小鹏汽车在阿里云上的千卡级训练任务线性加速比可以达到90%以上。

由于训练任务的特殊性,部件故障会导致整体训练停滞,如何尽可能早的预测故障,以及发生故障后系统能快速拉起恢复,是令小鹏汽车自动驾驶技术团队头疼的第二个问题。

小鹏汽车自动驾驶中心大数据管理部负责人Jay提到,“训练是一个持续几十天的过程,当我们的训练规模越大,就有可能遇到越多的意外情况,训练过程中,稳定性非常重要。”

针对这些问题,阿里云技术团队采取了一系列措施以提高系统的稳定性和训练效率。阿里云提供千卡集群健康检测能力,可实现对计算集群包括单节点算力检查,单节点内GPU互联检查,多节点互联检查等,实现在训练前、训练中和故障后及时发现问题节点,并通过AI助手设置运维策略,保障集群整体资源稳定可用。同时,配置节点分钟级自动自愈能力以及秒级的训练进度保存机制,实现故障后任务仍可以自动恢复,并以无损的训练进度实现续训,从而节约训练时间、降低训练成本。

今年,小鹏汽车也开始使用阿里云容器计算服务ACS,该服务为小鹏提供基础设施全托管算力服务,无需管理和维护底层服务器,即使遇到服务器发生故障,应用也能迅速切换到其他服务器,确保模型训练的连续运行。

▲小鹏汽车在云端加速智能创新

智能驾驶模型的演进迭代需要海量数据,过程中的数据采集、挖掘、处理,又同样对存储、数据处理能力提出了更高要求。

截至今年9月小鹏汽车公开数据显示,小鹏汽车使用了折算里程超10亿+公里的视频训练,累计646万公里、1972个城市和区县的实车测试,以及累计2.16亿公里、2.2万核心模拟场景、5.8万专业模拟场景的仿真测试。

阿里云把内存、本地磁盘、CPFS高性能并行文件存储以及OSS对象存储等形成一个完整的阶梯型存储架构,进行统一的管理,把热数据放在延迟最低的存储上面,并实现冷热数据的自动流转,不断提升存储的使用效率,降低存储成本。

数据的积累属于基础,更重要的是让数据有效转起来。小鹏汽车通过自研工具链结合阿里云大数据平台、数据库服务等实现全栈数据闭环,对数据的清洗处理以及高效的挖掘,数据的高效流转,端到端大模型的大规模分布式训练,实现测试阶段实车测试与仿真测试并重,加快迭代节奏,推动智能驾驶技术的快速发展。

小鹏汽车自动驾驶中心大数据管理部负责人Jay表示:“明年小鹏整体的数据量将迎来大幅度提高,更需要云基础设施做很好的承载。”

03.
当智能驾驶的热情被点燃

何小鹏曾说过:“小鹏从创始之初就一直致力于做中国的自动驾驶第一。”

通过“All in AI”,小鹏汽车不仅率先实现端到端智能驾驶大模型量产上车,根据“端到端四部曲”规划,在未来两年,小鹏还将基于L2的硬件和成本实现L3+的用户体验,并最终通往L4无人驾驶。

小鹏汽车自动驾驶负责人李力耘曾在接受采访时表示,端到端时代,好似从冷兵器时代来到热兵器时代。过去的辅助驾驶时代是“冷兵器时代”,只要凑齐了武林高手就可以打。但热兵器时代需要更大的算力、更多的数据、让算力和数据流转起来的机制和工程能力。拥有强大算力的阿里云,也将持续支撑小鹏汽车端到端大模型的快速迭代。(内容参考《云栖战略参考》)

小鹏汽车在国内快速推进了端到端智能驾驶。...小鹏云端大模型的参数量是车端的80倍,云端强化训练后,车端大模型的上限大幅提高。

算力上的提前布局,让小鹏汽车在国内率先实现端到端智能驾驶大模型量产上车。小鹏汽车认为,端到端只是开始,不是终局,真正的竞赛正在云端展开,云端大模型才是制胜关键。拥有强大算力的阿里云,支撑小鹏汽车端到端大模型的快速迭代。
编辑 |  Juice

智能驾驶近两年的提速,端到端技术无疑是关键动因。

2024年10月24日,小鹏汽车宣布AI天玑5.4.0正式开启公测,并首发搭载在小鹏P7+上。新版本为小鹏汽车带来了最强AI智能驾驶功能,根据数据统计,已经享受到公测版的P7+用户,在用户渗透率和里程渗透率上均取得了显著提升。早些时候,小鹏汽车已经完成了国内首个端到端智能驾驶大模型量产上车。

▲小鹏汽车发布AI天玑5.4.0系统,大幅提升智能驾驶能力

这一系列的成绩,源于小鹏汽车多年来全力投入AI的决心。早在2022年,小鹏汽车就率先完成城市导航辅助驾驶(NGP)的落地。当时,小鹏汽车自动驾驶团队就在思考,是否需要更进一步提升AI泛化能力。同年4月,小鹏汽车开始尝试对传统智能驾驶中的感知、融合、预测、规划、控制、定位等技术模块进行融合。这也成为小鹏汽车探索端到端大模型的雏形。

小鹏汽车董事长何小鹏在谈及端到端智能驾驶大模型时强调,“往后10年、20年,我不知道今天的大模型逻辑是否会适用,但它一定会比之前的算法或规则模型都要强。”

智能驾驶新一轮竞争正围绕算法、算力、数据三要素展开,出现任何一块短板,都将引发木桶效应。这场竞赛中,小鹏汽车和阿里云一直在并肩前行。

01.
AI席卷智能驾驶 
小鹏汽车笃定端到端技术路线

端到端(End-to-End),起初并非源于智能驾驶,而是多用于深度学习领域的一套方法,并且在语音识别、自然语言处理等领域已有比较多的学术研究。其设计原理是神经网络在学习中不进行分模块或分阶段训练,直接从输入数据到输出结果,减少人为干预和预处理的需求,类似于encoder-decoder架构。

端到端技术能够避免传统人工特征提取中的信息损失,提高模型的效率和准确性,简化训练流水线。

在智能驾驶领域,端到端智能驾驶方案利用统一的深度学习神经网络,将感知、规划与控制等多个功能模块整合为一体。将摄像头、传感器实时采集的原始数据作为输入,直接输出为转向、加速、制动等驾驶指令,这种一体化架构实现了信息无缝传输并降低延迟,让汽车反应更加顺滑。特斯拉在北美率先推出的FSD V12版本,就采用了端到端技术。同样,小鹏汽车在国内快速推进了端到端智能驾驶。

小鹏汽车选择的是“云端大模型”路线,通过构建云端大模型,然后将云端大模型蒸馏到车端,在车端进行模型部署。小鹏云端大模型的参数量是车端的80倍,云端强化训练后,车端大模型的上限大幅提高。

▲小鹏云端大模型的参数量是车端的80倍

据小鹏汽车自动驾驶产品高级总监袁婷婷介绍,端到端往往包含非常复杂的深度学习网络。但大模型的黑盒问题导致难以解释其决策过程和推理逻辑,尤其是表现出不良效果后,不可解释性还增加了解决和验证的难度,更无法保证其安全可靠性。

基于此,根据端到端的思路,小鹏汽车随即推出了“三网合一”架构,其中XNet类似于人的眼睛,对现实世界中的可通行空间进行3D还原;XPlanner类似于人的肌肉和小脑直觉,通过海量数据的不间断训练,优化驾驶策略;XBrain类似于人的大脑,会进行更深入的理解和意图推理,包括时序、环境、路牌文字等。三网以全局性视角联合执行驾驶任务,可以对模型进行联合预训练和标注,同时三网又各有侧重,出现问题可快速诊断定位,了解模型和系统的缺陷问题。更重要的是,在驾驶安全性上,三网使得系统应对一些特殊、紧急场景的上限变得更高的同时,也需要一定的安全措施保证下限。

在端到端技术的加持下,小鹏汽车整体迈向了以轻地图、轻雷达、重算力为核心的智能驾驶方案。针对复杂路况,能够做到点到点的辅助驾驶能力,包括自动通过高速ETC闸机、红绿灯识别、拥堵路段跟车以及主动变道超车等等。尤其在体验和流畅性上,用户基本感觉不到任何断点。

小鹏汽车自动驾驶产品高级总监袁婷婷指出,行业内一般用记忆泊车VPA(Valet Parking Assist)+NOA(Navigate on Autopilot)城市辅助驾驶的方式来实现车位到车位,这也是小鹏在2021年采用的方案。但使用拼接方案,就会存在卡顿,比如汽车行驶到停车场与公开道路的交汇点时,会因切换软件导致卡壳现象。

▲目前行业内主要有三种端到端技术路线

目前小鹏汽车已经通过端到端智能驾驶大模型对其能力进行了全面升级,在行业内首个用一套智能驾驶软件以及基于“端到端大模型”实现“车位到车位”。在最新的测试场景中,车位到车位的整条链路——从园区内、地库内,到过闸机,再到公开道路的衔接,都能以更加流畅的体验方式实现。此外,路线规划也能够无感生成,让驾驶变得更加便捷高效。

“丝滑、笃定、直觉性”这些用于形容老司机开车一样的驾驶体验,正在小鹏汽车端到端智能驾驶系统上呈现。

可以看到,端到端的出现,突破了原先依靠规则驱动的智能驾驶研发体系,至少在当前阶段,端到端已是自动驾驶竞争的关键技术路径之一。

02.
真正适配智能驾驶的算力底座

多年来在端到端智能驾驶大模型上的投入,模型参数量的急剧扩张,使得小鹏汽车智能驾驶系统和功能迭代速度持续加快。

由于当前车端芯片算力的限制,即便采用两片Orin芯片,能支持的车端模型参数量依然有限。而云端大模型可以全面吸纳智能驾驶数据,不遗漏重点信息细节。通过大量数据训练,尽可能穷尽智能驾驶中的长尾问题,以覆盖更多驾驶场景,使XNGP实现L3级的智能驾驶体验。

训练一个云端大模型,对大规模高性能算力以及数据存储和处理提出了非常高的要求。其一,提高并行训练性能和利用率的要求,这对云基础设施包括网络互联、带宽,以及系统软件优化等带来了挑战;其二,对模型训练持久稳定性的要求,比如模型训练中断,训练出现问题后能否快速拉起任务,缩短故障时间;其三,大规模多模态数据的存储与处理能力,实现并行训练的高性能、高吞吐,满足模型训练不断提升的数据量增长需求;其四,海量数据的存储成本要求,在满足数据处理性能要求的前提下,通过支持数据分层存储,实现最优的成本。

实现这些要求并非易事。大模型的预训练需要集群化,构建万卡甚至更大规模的集群,且整个集群需要组成一个庞大的“整体”。形象来说,就像每一排都有两个人且两人之间把腿绑在一起,共同前进。只有每张GPU卡、每台机器都以相同的“步伐”前进,才能提升整体的模型训练效率。

早在2022年,小鹏汽车就与阿里云在乌兰察布建成了当时中国最大的自动驾驶智算中心“扶摇”,用于自动驾驶模型训练。“扶摇”依托于阿里云灵骏智算集群构建,该集群是阿里云面向AI时代打造的智能算力基础设施,支撑了小鹏汽车端到端智能驾驶大模型的快速迭代。

▲2022年小鹏汽车与阿里云合作建立自动驾驶智算中心

随着模型规模扩大到百亿甚至千亿量级,一次训练任务需要更多GPU协同,规模会放大很多问题。

首先碰到的问题就是扩展集群规模是否能带来训练任务相同倍数的线性加速。为了将“相同步伐”效率提升到极致,阿里云升级到HPN 7.0网络架构,把网络能力推向一个全新的高度。通过3.2Tbps高性能RDMA网络连接,让服务器之间的通讯更顺畅;自研的拥塞控制算法解决了路由的复杂度和数据交换的冲突;同时,训练过程实现自动网络拓扑感知调度,为大模型训练自动调度最佳网络拓扑的计算节点,从而减少通信开销,进一步提升训练效率。

此外,计算和存储流量分离大大减少存储IO和计算通信的互相干扰,进而提升了整体GPU集群的计算效率。小鹏汽车在阿里云上的千卡级训练任务线性加速比可以达到90%以上。

由于训练任务的特殊性,部件故障会导致整体训练停滞,如何尽可能早的预测故障,以及发生故障后系统能快速拉起恢复,是令小鹏汽车自动驾驶技术团队头疼的第二个问题。

小鹏汽车自动驾驶中心大数据管理部负责人Jay提到,“训练是一个持续几十天的过程,当我们的训练规模越大,就有可能遇到越多的意外情况,训练过程中,稳定性非常重要。”

针对这些问题,阿里云技术团队采取了一系列措施以提高系统的稳定性和训练效率。阿里云提供千卡集群健康检测能力,可实现对计算集群包括单节点算力检查,单节点内GPU互联检查,多节点互联检查等,实现在训练前、训练中和故障后及时发现问题节点,并通过AI助手设置运维策略,保障集群整体资源稳定可用。同时,配置节点分钟级自动自愈能力以及秒级的训练进度保存机制,实现故障后任务仍可以自动恢复,并以无损的训练进度实现续训,从而节约训练时间、降低训练成本。

今年,小鹏汽车也开始使用阿里云容器计算服务ACS,该服务为小鹏提供基础设施全托管算力服务,无需管理和维护底层服务器,即使遇到服务器发生故障,应用也能迅速切换到其他服务器,确保模型训练的连续运行。

▲小鹏汽车在云端加速智能创新

智能驾驶模型的演进迭代需要海量数据,过程中的数据采集、挖掘、处理,又同样对存储、数据处理能力提出了更高要求。

截至今年9月小鹏汽车公开数据显示,小鹏汽车使用了折算里程超10亿+公里的视频训练,累计646万公里、1972个城市和区县的实车测试,以及累计2.16亿公里、2.2万核心模拟场景、5.8万专业模拟场景的仿真测试。

阿里云把内存、本地磁盘、CPFS高性能并行文件存储以及OSS对象存储等形成一个完整的阶梯型存储架构,进行统一的管理,把热数据放在延迟最低的存储上面,并实现冷热数据的自动流转,不断提升存储的使用效率,降低存储成本。

数据的积累属于基础,更重要的是让数据有效转起来。小鹏汽车通过自研工具链结合阿里云大数据平台、数据库服务等实现全栈数据闭环,对数据的清洗处理以及高效的挖掘,数据的高效流转,端到端大模型的大规模分布式训练,实现测试阶段实车测试与仿真测试并重,加快迭代节奏,推动智能驾驶技术的快速发展。

小鹏汽车自动驾驶中心大数据管理部负责人Jay表示:“明年小鹏整体的数据量将迎来大幅度提高,更需要云基础设施做很好的承载。”

03.
当智能驾驶的热情被点燃

何小鹏曾说过:“小鹏从创始之初就一直致力于做中国的自动驾驶第一。”

通过“All in AI”,小鹏汽车不仅率先实现端到端智能驾驶大模型量产上车,根据“端到端四部曲”规划,在未来两年,小鹏还将基于L2的硬件和成本实现L3+的用户体验,并最终通往L4无人驾驶。

小鹏汽车自动驾驶负责人李力耘曾在接受采访时表示,端到端时代,好似从冷兵器时代来到热兵器时代。过去的辅助驾驶时代是“冷兵器时代”,只要凑齐了武林高手就可以打。但热兵器时代需要更大的算力、更多的数据、让算力和数据流转起来的机制和工程能力。拥有强大算力的阿里云,也将持续支撑小鹏汽车端到端大模型的快速迭代。(内容参考《云栖战略参考》)

展开
打开“财经头条”阅读更多精彩资讯
APP内打开