理想汽车12月31日全量推送OTA 7.0 有望在2025年实现L3级自动驾驶

汽车之家

4天前

如果还是用上一代软件1.0方案来做自动驾驶,在研发之初,就要清晰地设定所有条件、所有边界,以及最终确定性的结果,这在自动驾驶里是非常困难的。...系统1+系统2的方案,是让自动驾驶系统拥有这种能力去迭代和成长,随着数据量的增长,慢慢地性能随之提升。

[汽车之家 资讯] 12月26日,理想汽车CEO李想和智驾负责人郎咸朋在直播中讲解了理想汽车在智驾方面的发展动向。理想汽车将在12月31日全量推送OTA 7.0给AD Max用户。按照理想现在的端到端+VLM体系继续迭代,有望在2025年实现L3级自动驾驶,其中一些重点的信息如下。此外,李想在前一天的直播中宣布了理想将转型成为人工智能企业,具体信息可点击链接查看。

汽车之家

● 端到端的智驾表现将优于现在的所有智驾软件,理想已经为端到端做好了准备

汽车之家

理想智驾负责人郎咸朋表示,端到端一旦做出来,会比现在所有的智能驾驶软件都要好,去年不上端到端是因为在等足够的数据和算力。端到端VLM大模型其实最终的本质是用人工智能来做自动驾驶,人工智能的三个要素:算法、数据和算力,这三个要素必须全都齐备。理想今年已经在这三个方面做好了准备,理想AD Max车型的(高质量训练)数据量达到10亿(公里) 左右规模,算力达到了5EFLOPS,并且端到端的一些预研也有一定成果。

● 理想汽车保留激光雷达,是为了安全考虑

汽车之家

理想汽车CEO李想表示,保留激光雷达还是为了安全。特斯拉选择了纯视觉,但是中国和美国是不一样的,夜里可能会有尾灯坏了的大货车、甚至可能尾灯坏的大货车会直接停在主路上,摄像头能够在深夜里没有光线下看到的距离其实只有100米出头。 而激光雷达在没有任何光线的情况下是可以看到200米的,这就可以实现130公里/小时的AEB自动紧急制动,带来更高的安全性。

● L3或者有监督智能驾驶不是L2的延续,而是L4的先导

理想智驾负责人郎咸朋表示,自动驾驶是能力、辅助驾驶是功能,功能是预设条件,能力是应对所有条件。如果还是用上一代软件1.0方案来做自动驾驶,在研发之初,就要清晰地设定所有条件、所有边界,以及最终确定性的结果,这在自动驾驶里是非常困难的。用人工智能的方式来做自动驾驶,是从最本质思考人是怎么学会开车的。最开始人去驾校学习,掌握基本驾驶技能再考试。考完掌握基本能力之后,作为实习司机一边实践一边提升能力,慢慢地成长为老司机。系统1+系统2的方案,是让自动驾驶系统拥有这种能力去迭代和成长,随着数据量的增长,慢慢地性能随之提升。

● 智能驾驶对于理想的销量有非常好的促进作用

从实际销量表现来看,2024年智能驾驶确实对于理想的销量有非常好的促进作用。理想2月AD Max的交付量占比只到20%左右,到下半年已经超过50%。早期用户认为自动驾驶是一个功能,跟座椅加热没有大的区别,并没有解决用户日常出行的舒适性。而现在理想用AI来做自动驾驶,端到端+VLM能够真正解放用户长时间的驾驶疲劳。

● L4级自动驾驶是决定胜负的关键点

汽车之家

李想认为,L4级自动驾驶会是决定胜负的关键点。端到端只能解决L3,解决不了L4级自动驾驶。掌握L4首先需要500万辆以上的车跑在路上收集数据,第二需要掌握VLA(视觉语言行动模型)这个基础模型,第三要有足够多的钱去招募最顶级的人才,以及足够的算力。

直播问答全文如下:

01.理想智驾一号位的职业危机

张小珺:听说李想对智驾发了很大的火,你怎么还能留在这?

郎咸朋:当时想哥说了一句很狠的话,他说郎博下半年如果我还看不到变化,咱们还是拿不到头部位置的话,那你这个负责人就可以不用干了。

张小珺:那次发火完之后达成了什么结果?

郎咸朋:我觉得大家就回归的是体验和用户价值,重新把大家的思路聚拢了。我们是给用户做一个有更好体验、更安全、更便捷的产品,而不是说做一大堆什么从指标上看起来挺好的产品。那次所有人心里边又重新回到从产品出发去做智能驾驶,这是我觉得印象最深的一点。

张小珺:你们是那次之后开始转的端到端吗?

郎咸朋:其实在想哥发火之前,我们内部的这个端到端的预研,已经在开展了。那么从那一刻开始,我们端到端的速度就加快了。

张小珺:第一次试驾端到端是什么样的体验?

郎咸朋:我第一次试到这个车,从中关村开到了北京交通大学。开了几公里我就问旁边的贾鹏,这是规则还是怎么做的?怎么我觉得开得这么好呢?他说一句规则都没写,全都是系统按照咱们给它的数据自己训练出来的。

咱们开车都知道,如果前面有个车刹停的话,它是要缓慢减速,甚至还再抬起一点刹车,有这样非常舒适的刹车过程。这个过程我们团队在规则阶段写了很长时间的代码,都没有达到一个完全拟人、解决所有场景的表现。

但我第一次试驾端到端,它的纵向就已经比之前试过所有的都要好的状态,这才用了短短不到15天。所以我觉得那时候建立了一个信心,就是端到端一定能做出来。而且一旦它做出来,就一定会比现在所有的智能驾驶软件都要好。

张小珺:既然端到端是灵丹妙药,为什么去年不上?特斯拉去年就上了,你去年在干嘛?

郎咸朋:我们在等,等足够的数据和算力,等到了我们就能上了。

端到端 VLM大模型其实最终的本质是用人工智能来做自动驾驶。人工智能的三个要素:算法、数据和算力。这三个要素必须全都齐备。我们是今年是准备好了,所以我们能做这个事情。

理想AD Max 车型的销量,去年起来了之后到今年初(高质量训练)数据量达到10亿(公里) 左右规模,这是一个基础。第二是算力基础,今年初我们算力也到了5EFLOPS。再加上第三步,就是端到端的一些预研也有一定成果,所以到今年初是天时地利人和,可以做这个事情了,去年我们还在补课的一个过程。

张小珺:为什么很多企业的端到端是两个模型,而不是One Model?

郎咸朋:这个是算法和理念的问题。我们要做端到端时就给自己定了一个目标,一定要用纯数据驱动的方式来做这件事情,而不是结合了之前的规则来做,所以说它的性能上限会非常高。

张小珺:为什么理想是端到端+VLM,不像特斯拉只用端到端?你们对自己的端到端不够自信吗?

郎咸朋:不能这么讲,我们在做技术方案时充分参考了世界上所有的先进方案,但始终无法解决一个问题是,当一套自动驾驶或智能驾驶系统,它工作时如果遇到之前没有见过的场景,应该怎么处理?我们认为就是端到端+VLM,就是系统1+系统2的方式,很好地模仿人类大脑的工作方式。

张小珺:如果智驾一号位想要推动智能驾驶的投入,老板会成为阻力吗?

郎咸朋:没有,反而李想一直在催促我:郎博,咱们自动驾驶怎么还是慢了?赶紧加快速度!

02.要么就做端到端,要么就不再做自动驾驶。

张小珺:特斯拉没有用激光雷达,你们为什么要用?

李想:很多人不太理解说:为什么要保留激光雷达,还是为了安全。是不是因为你技术不好?不是,中国和美国是不一样的,如果你经常在中国晚上夜路开车,你会看到有尾灯坏了的大货车、甚至可能尾灯坏的大货车会直接停在主路上,至少我们今天的摄像头,能够在深夜里没有光线下看到的距离,其实只有100米出头。

但是激光雷达,在没有任何光线的情况下是可以看到200米的。这就可以帮助我们实现130公里/小时的AEB自动紧急制动。那我觉得这个是非常重要的,因为我们是个面向家庭的车,每个人生命安全都非常的重要,所以这是我们继续保留激光雷达根本所在。而且后边的车型仍然会保留。我相信如果马斯克在中国,在深夜里不同的高速开过车,他也会选择把前面的一颗激光雷达保留下来。因为特斯拉对于安全同样地重视,只是他要在这个环境里来看到。

张小珺:理想激进的用只有一个模型的端到端,其他车企还在用两个模型,为什么?

李想:很多时候可能跟我们有一些比较好的外脑有关,像王兴、陆奇博士,他们会给我们带来很多启发。有一次陆奇博士跟我们讲,你们应该思考一下人是怎么工作的?我觉得这个当时对我们帮助很大。

汽车之家

今年初我还逼着智驾团队去美国,他们在不同的城市开FSD V12。另一方面我们研究工作也在进行,那时已经在发端到端+VLM的各种研究论文了。回来以后我觉得要么你做这个,要么我们就不要再做自动驾驶了。今天你靠这些规则上来做的,跟请个供应商做出来的东西有啥区别?没有啥区别。

我说服郎博他们很重要的一点,我说你们经常解决了一个Corner Case(极端情况),又出现三个其他的Corner Case。你们一辈子都在解决Corner Case,解决不完。

张小珺:所以其他人不转,是因为他们Corner Case解决得比你们好?

李想:有些企业Corner Case确实解决得比我们好,因为他会招很多的人,5倍、10倍的人,然后一个路口一个路口去解决。不但解决规则算法的Corner Case,甚至还自己有地图,去修地图的Corner Case。

张小珺:过去两年在人工智能上,你有什么哇塞Moment吗?

李想:ChatGPT 肯定是了,其次我们内部还是有很多“哇塞”的。一个印象最深的是,我们决定启动端到端并匹配好资源,准备好200人团队,他们训练了几十版模型,第一版放到车上,当时郎博让我们来试,我跟张颖(经纬中国合伙人)在北京研发总部正好就一起试了。张颖坐主驾我坐副驾,当时我就很惊讶:这一个月的训练,比过去三年做的东西,进步速度要快!

张颖之前试过无图NOA,当他试到端到端时发现这跟人很相似,甚至在一个路口,旁边有辆车为了躲行人往我们这边躲时,这个车也适时地避让了。他问为什么能躲那么快?我说端到端响应速度快了好几倍,因为他是个One Model,而不是经过4个步骤。

我们下一个大版本更新时,用户可以在车上直接很清楚地看到端到端的工作方式是什么样的,视觉语言模型工作方式是什么样的,以及人工智能到底是怎么工作的。

03.有监督智能驾驶不是L2的延续,而是L4的先导。

张小珺:大家都说理想做智驾是投入最晚最慢的,你怎么看?

郎咸朋:2018年1月我加入理想时,跟李想讨论过这个问题。什么才是决定最终智能驾驶或自动驾驶实现的最关键因素?我们当时聊的就是数据。人才可以流动、算法可以提升、算力也非常重要,但是只要有健康的资金、合理的资金使用也是能买得到的。

那么最重要就是数据,数据它是买不到的,必须自己有这样一个非常高质量、规模非常大的数据,才可以做好自动驾驶。所以我们要按照节奏来做自动驾驶,刚开始我们要先把车造好、把车卖好,然后积累更多的资金、人才和数据,到了一定时间点再大量投入,去达到更好的自动驾驶的效果。其实从现在结果上也是能看出这一点的:我们自动驾驶的节奏是非常好的。

张小珺:什么时候理想意识到,智驾对于卖车是有帮助的?

郎咸朋:从实际表现来看是从今年开始的,今年智能驾驶确实对于销量有非常好的促进作用。我们2月AD Max的交付量占比只到20%左右,然后到今年下半年超过50%了,这是实打实的业绩。早期大家认为自动驾驶是一个功能,它跟座椅加热没有大的区别,并没有解决用户日常出行的舒适性。直到现在我们用AI来做自动驾驶,端到端+VLM真正解放用户长时间的驾驶疲劳。当我们能达到综合MPI(城市+高速综合接管里程)100公里、几百公里时,大家就真正愿意为自动驾驶买单了。

张小珺:理想提出有监督智能驾驶,跟自动驾驶L1到L5传统分级有什么区别?

郎咸朋:这里面其实体现我们对自动驾驶研发的思路差别。之前很多人认为L3自动驾驶是L2辅助驾驶的延续,只要把L2辅助驾驶的场景越做越多,总有一天能无限趋近于L3,甚至可能就能够做到L3。

但在我们看来,L3或者有监督智能驾驶,它并不是L2的延续,而是L4或者自动驾驶的先导程序。实际上我们是锚着未来的自动驾驶能力去研发、去成长和迭代的,而不是沿着过去一套用L2的思路,去做现在的自动驾驶。

张小珺:你说自动驾驶是能力、辅助驾驶是功能,两者本质区别是什么?

郎咸朋:功能是预设条件,能力是应对所有条件。你不可能穷尽所有的预设。

功能的话,还是用上一代的这种软件1.0方案来做自动驾驶。最大的问题是在研发之初,就要清晰地设定所有条件、所有边界,以及最终确定性的结果。这在自动驾驶里是非常困难的。

能力的话,是用人工智能的方式来做自动驾驶。当我们把自动驾驶当成能力来开发,从最本质思考人是怎么学会开车的。最开始人去驾校学习,掌握基本驾驶技能再考试。考完掌握基本能力之后,作为实习司机一边实践一边提升能力,慢慢地成长为老司机。我们系统1+系统2的方案,让自动驾驶系统拥有这种能力去迭代和成长,随着数据量的增长,它会慢慢地让性能随之提升,这个就是大家经常说的规模效应。

张小珺:你们验证了自动驾驶的规模效应吗?

郎咸朋:我们已经验证出来了。这不是我们发明的,所有的大模型应用都符合这种规律,也就是说数据规模和数据质量的增长,会带动性能的增长。而且性能增长是接近于线性的,这就是我们用大模型最本质的好处。

张小珺:有监督智能驾驶阶段,理想交付给用户的产品长什么样?

郎咸朋:全场景的、一体化端到端产品。要想实现有监督智能驾驶,一个前提是实现车位到车位,也就是解决最前面一百米和最后面一百米。以前智驾是从干道开始,现在可以从小区车位开始,然后包括园区道路、泊车、城市道路,还有高速和收费站ETC都会全部打通。

高速城市全场景升级端到端+VLM,以及创新的AI推理可视化的交互,将在近期随OTA全量推送给所有的AD Max用户。

张小珺:L3什么时候实现?

汽车之家

郎咸朋:按照现在的端到端+VLM这套体系,能力继续迭代的话,我们是有希望在2025年去实现L3的。

张小珺:面对李想年初对于智驾的发火,你的职业危机是什么时候解除的?

郎咸朋:我觉得到现在还没解除,因为还没有做到极致。我们的目标是今年综合MPI(城市+高速综合接管里程)做到100公里接管一次的能力。这个接管不是安全接管,不是说你要撞车了才接管,是用户觉得车开得不符合体验、不舒服的接管。到明年、后年,我们会逐渐提升至500公里、甚至1000公里以上。慢慢让大家对智驾越来越自信、越来越依赖。

张小珺:要实现这样的目标,需要储备多少算力和数据?

郎咸朋:要达到500公里的综合MPI(城市+高速综合接管里程),预计需要2000万Clips(视频片段)的水平。如果2000万Clips从不到5%的老司机去筛选,这里隐含的数据量,要达到50亿公里甚至上百亿公里的水平。

04电动车这场仗什么时候能分出胜负手?

张小珺:你现在开车智能驾驶占比是多少?

李想:大概80%左右。

张小珺:剩下的20%是因为你们技术不够行吗?

李想:最主要是我赶时间。

张小珺:端到端是自动驾驶的制胜法宝吗?

李想:我觉得端到端只能解决L3,解决不了L4。

张小珺:什么时候可以100%用自动驾驶?

李想:给我三年的时间,它需要技术到位,也需要产品到位,也需要一些环境和政策到位,也需要消费者对于人工智能的信任到位。

张小珺:电动车这场仗什么时候能分出胜负手?

李想:现在中国的汽车仍然非常内卷。电动化和智能化是两场仗,电动化其实是相当于是一张门票,我认为L4会分出来真正的胜负。但是我们今天在做的所有事情,是为了L4拿门票,因为L4所需要花的钱,所需要拥有的能力,所需要的数据量,是今天所不具备的,所以今天大家要靠这个东西去拿L4的门票。

张小珺:拿L4的门票需要什么条件?

李想:足够多的车跑在路上。

张小珺:多少车?

李想:得500万辆以上。第二你要真的自己掌握VLA(视觉语言行动模型)这个基础模型的能力。第三,你要有足够多的钱去招募最顶级的人才,以及足够的算力,有这三个条件。

张小珺:当满足这些条件且做到足够优秀时,能做出一家像苹果这样的公司吗?

李想:一定会的,一定会的。(编译/汽车之家 颜欢)

如果还是用上一代软件1.0方案来做自动驾驶,在研发之初,就要清晰地设定所有条件、所有边界,以及最终确定性的结果,这在自动驾驶里是非常困难的。...系统1+系统2的方案,是让自动驾驶系统拥有这种能力去迭代和成长,随着数据量的增长,慢慢地性能随之提升。

[汽车之家 资讯] 12月26日,理想汽车CEO李想和智驾负责人郎咸朋在直播中讲解了理想汽车在智驾方面的发展动向。理想汽车将在12月31日全量推送OTA 7.0给AD Max用户。按照理想现在的端到端+VLM体系继续迭代,有望在2025年实现L3级自动驾驶,其中一些重点的信息如下。此外,李想在前一天的直播中宣布了理想将转型成为人工智能企业,具体信息可点击链接查看。

汽车之家

● 端到端的智驾表现将优于现在的所有智驾软件,理想已经为端到端做好了准备

汽车之家

理想智驾负责人郎咸朋表示,端到端一旦做出来,会比现在所有的智能驾驶软件都要好,去年不上端到端是因为在等足够的数据和算力。端到端VLM大模型其实最终的本质是用人工智能来做自动驾驶,人工智能的三个要素:算法、数据和算力,这三个要素必须全都齐备。理想今年已经在这三个方面做好了准备,理想AD Max车型的(高质量训练)数据量达到10亿(公里) 左右规模,算力达到了5EFLOPS,并且端到端的一些预研也有一定成果。

● 理想汽车保留激光雷达,是为了安全考虑

汽车之家

理想汽车CEO李想表示,保留激光雷达还是为了安全。特斯拉选择了纯视觉,但是中国和美国是不一样的,夜里可能会有尾灯坏了的大货车、甚至可能尾灯坏的大货车会直接停在主路上,摄像头能够在深夜里没有光线下看到的距离其实只有100米出头。 而激光雷达在没有任何光线的情况下是可以看到200米的,这就可以实现130公里/小时的AEB自动紧急制动,带来更高的安全性。

● L3或者有监督智能驾驶不是L2的延续,而是L4的先导

理想智驾负责人郎咸朋表示,自动驾驶是能力、辅助驾驶是功能,功能是预设条件,能力是应对所有条件。如果还是用上一代软件1.0方案来做自动驾驶,在研发之初,就要清晰地设定所有条件、所有边界,以及最终确定性的结果,这在自动驾驶里是非常困难的。用人工智能的方式来做自动驾驶,是从最本质思考人是怎么学会开车的。最开始人去驾校学习,掌握基本驾驶技能再考试。考完掌握基本能力之后,作为实习司机一边实践一边提升能力,慢慢地成长为老司机。系统1+系统2的方案,是让自动驾驶系统拥有这种能力去迭代和成长,随着数据量的增长,慢慢地性能随之提升。

● 智能驾驶对于理想的销量有非常好的促进作用

从实际销量表现来看,2024年智能驾驶确实对于理想的销量有非常好的促进作用。理想2月AD Max的交付量占比只到20%左右,到下半年已经超过50%。早期用户认为自动驾驶是一个功能,跟座椅加热没有大的区别,并没有解决用户日常出行的舒适性。而现在理想用AI来做自动驾驶,端到端+VLM能够真正解放用户长时间的驾驶疲劳。

● L4级自动驾驶是决定胜负的关键点

汽车之家

李想认为,L4级自动驾驶会是决定胜负的关键点。端到端只能解决L3,解决不了L4级自动驾驶。掌握L4首先需要500万辆以上的车跑在路上收集数据,第二需要掌握VLA(视觉语言行动模型)这个基础模型,第三要有足够多的钱去招募最顶级的人才,以及足够的算力。

直播问答全文如下:

01.理想智驾一号位的职业危机

张小珺:听说李想对智驾发了很大的火,你怎么还能留在这?

郎咸朋:当时想哥说了一句很狠的话,他说郎博下半年如果我还看不到变化,咱们还是拿不到头部位置的话,那你这个负责人就可以不用干了。

张小珺:那次发火完之后达成了什么结果?

郎咸朋:我觉得大家就回归的是体验和用户价值,重新把大家的思路聚拢了。我们是给用户做一个有更好体验、更安全、更便捷的产品,而不是说做一大堆什么从指标上看起来挺好的产品。那次所有人心里边又重新回到从产品出发去做智能驾驶,这是我觉得印象最深的一点。

张小珺:你们是那次之后开始转的端到端吗?

郎咸朋:其实在想哥发火之前,我们内部的这个端到端的预研,已经在开展了。那么从那一刻开始,我们端到端的速度就加快了。

张小珺:第一次试驾端到端是什么样的体验?

郎咸朋:我第一次试到这个车,从中关村开到了北京交通大学。开了几公里我就问旁边的贾鹏,这是规则还是怎么做的?怎么我觉得开得这么好呢?他说一句规则都没写,全都是系统按照咱们给它的数据自己训练出来的。

咱们开车都知道,如果前面有个车刹停的话,它是要缓慢减速,甚至还再抬起一点刹车,有这样非常舒适的刹车过程。这个过程我们团队在规则阶段写了很长时间的代码,都没有达到一个完全拟人、解决所有场景的表现。

但我第一次试驾端到端,它的纵向就已经比之前试过所有的都要好的状态,这才用了短短不到15天。所以我觉得那时候建立了一个信心,就是端到端一定能做出来。而且一旦它做出来,就一定会比现在所有的智能驾驶软件都要好。

张小珺:既然端到端是灵丹妙药,为什么去年不上?特斯拉去年就上了,你去年在干嘛?

郎咸朋:我们在等,等足够的数据和算力,等到了我们就能上了。

端到端 VLM大模型其实最终的本质是用人工智能来做自动驾驶。人工智能的三个要素:算法、数据和算力。这三个要素必须全都齐备。我们是今年是准备好了,所以我们能做这个事情。

理想AD Max 车型的销量,去年起来了之后到今年初(高质量训练)数据量达到10亿(公里) 左右规模,这是一个基础。第二是算力基础,今年初我们算力也到了5EFLOPS。再加上第三步,就是端到端的一些预研也有一定成果,所以到今年初是天时地利人和,可以做这个事情了,去年我们还在补课的一个过程。

张小珺:为什么很多企业的端到端是两个模型,而不是One Model?

郎咸朋:这个是算法和理念的问题。我们要做端到端时就给自己定了一个目标,一定要用纯数据驱动的方式来做这件事情,而不是结合了之前的规则来做,所以说它的性能上限会非常高。

张小珺:为什么理想是端到端+VLM,不像特斯拉只用端到端?你们对自己的端到端不够自信吗?

郎咸朋:不能这么讲,我们在做技术方案时充分参考了世界上所有的先进方案,但始终无法解决一个问题是,当一套自动驾驶或智能驾驶系统,它工作时如果遇到之前没有见过的场景,应该怎么处理?我们认为就是端到端+VLM,就是系统1+系统2的方式,很好地模仿人类大脑的工作方式。

张小珺:如果智驾一号位想要推动智能驾驶的投入,老板会成为阻力吗?

郎咸朋:没有,反而李想一直在催促我:郎博,咱们自动驾驶怎么还是慢了?赶紧加快速度!

02.要么就做端到端,要么就不再做自动驾驶。

张小珺:特斯拉没有用激光雷达,你们为什么要用?

李想:很多人不太理解说:为什么要保留激光雷达,还是为了安全。是不是因为你技术不好?不是,中国和美国是不一样的,如果你经常在中国晚上夜路开车,你会看到有尾灯坏了的大货车、甚至可能尾灯坏的大货车会直接停在主路上,至少我们今天的摄像头,能够在深夜里没有光线下看到的距离,其实只有100米出头。

但是激光雷达,在没有任何光线的情况下是可以看到200米的。这就可以帮助我们实现130公里/小时的AEB自动紧急制动。那我觉得这个是非常重要的,因为我们是个面向家庭的车,每个人生命安全都非常的重要,所以这是我们继续保留激光雷达根本所在。而且后边的车型仍然会保留。我相信如果马斯克在中国,在深夜里不同的高速开过车,他也会选择把前面的一颗激光雷达保留下来。因为特斯拉对于安全同样地重视,只是他要在这个环境里来看到。

张小珺:理想激进的用只有一个模型的端到端,其他车企还在用两个模型,为什么?

李想:很多时候可能跟我们有一些比较好的外脑有关,像王兴、陆奇博士,他们会给我们带来很多启发。有一次陆奇博士跟我们讲,你们应该思考一下人是怎么工作的?我觉得这个当时对我们帮助很大。

汽车之家

今年初我还逼着智驾团队去美国,他们在不同的城市开FSD V12。另一方面我们研究工作也在进行,那时已经在发端到端+VLM的各种研究论文了。回来以后我觉得要么你做这个,要么我们就不要再做自动驾驶了。今天你靠这些规则上来做的,跟请个供应商做出来的东西有啥区别?没有啥区别。

我说服郎博他们很重要的一点,我说你们经常解决了一个Corner Case(极端情况),又出现三个其他的Corner Case。你们一辈子都在解决Corner Case,解决不完。

张小珺:所以其他人不转,是因为他们Corner Case解决得比你们好?

李想:有些企业Corner Case确实解决得比我们好,因为他会招很多的人,5倍、10倍的人,然后一个路口一个路口去解决。不但解决规则算法的Corner Case,甚至还自己有地图,去修地图的Corner Case。

张小珺:过去两年在人工智能上,你有什么哇塞Moment吗?

李想:ChatGPT 肯定是了,其次我们内部还是有很多“哇塞”的。一个印象最深的是,我们决定启动端到端并匹配好资源,准备好200人团队,他们训练了几十版模型,第一版放到车上,当时郎博让我们来试,我跟张颖(经纬中国合伙人)在北京研发总部正好就一起试了。张颖坐主驾我坐副驾,当时我就很惊讶:这一个月的训练,比过去三年做的东西,进步速度要快!

张颖之前试过无图NOA,当他试到端到端时发现这跟人很相似,甚至在一个路口,旁边有辆车为了躲行人往我们这边躲时,这个车也适时地避让了。他问为什么能躲那么快?我说端到端响应速度快了好几倍,因为他是个One Model,而不是经过4个步骤。

我们下一个大版本更新时,用户可以在车上直接很清楚地看到端到端的工作方式是什么样的,视觉语言模型工作方式是什么样的,以及人工智能到底是怎么工作的。

03.有监督智能驾驶不是L2的延续,而是L4的先导。

张小珺:大家都说理想做智驾是投入最晚最慢的,你怎么看?

郎咸朋:2018年1月我加入理想时,跟李想讨论过这个问题。什么才是决定最终智能驾驶或自动驾驶实现的最关键因素?我们当时聊的就是数据。人才可以流动、算法可以提升、算力也非常重要,但是只要有健康的资金、合理的资金使用也是能买得到的。

那么最重要就是数据,数据它是买不到的,必须自己有这样一个非常高质量、规模非常大的数据,才可以做好自动驾驶。所以我们要按照节奏来做自动驾驶,刚开始我们要先把车造好、把车卖好,然后积累更多的资金、人才和数据,到了一定时间点再大量投入,去达到更好的自动驾驶的效果。其实从现在结果上也是能看出这一点的:我们自动驾驶的节奏是非常好的。

张小珺:什么时候理想意识到,智驾对于卖车是有帮助的?

郎咸朋:从实际表现来看是从今年开始的,今年智能驾驶确实对于销量有非常好的促进作用。我们2月AD Max的交付量占比只到20%左右,然后到今年下半年超过50%了,这是实打实的业绩。早期大家认为自动驾驶是一个功能,它跟座椅加热没有大的区别,并没有解决用户日常出行的舒适性。直到现在我们用AI来做自动驾驶,端到端+VLM真正解放用户长时间的驾驶疲劳。当我们能达到综合MPI(城市+高速综合接管里程)100公里、几百公里时,大家就真正愿意为自动驾驶买单了。

张小珺:理想提出有监督智能驾驶,跟自动驾驶L1到L5传统分级有什么区别?

郎咸朋:这里面其实体现我们对自动驾驶研发的思路差别。之前很多人认为L3自动驾驶是L2辅助驾驶的延续,只要把L2辅助驾驶的场景越做越多,总有一天能无限趋近于L3,甚至可能就能够做到L3。

但在我们看来,L3或者有监督智能驾驶,它并不是L2的延续,而是L4或者自动驾驶的先导程序。实际上我们是锚着未来的自动驾驶能力去研发、去成长和迭代的,而不是沿着过去一套用L2的思路,去做现在的自动驾驶。

张小珺:你说自动驾驶是能力、辅助驾驶是功能,两者本质区别是什么?

郎咸朋:功能是预设条件,能力是应对所有条件。你不可能穷尽所有的预设。

功能的话,还是用上一代的这种软件1.0方案来做自动驾驶。最大的问题是在研发之初,就要清晰地设定所有条件、所有边界,以及最终确定性的结果。这在自动驾驶里是非常困难的。

能力的话,是用人工智能的方式来做自动驾驶。当我们把自动驾驶当成能力来开发,从最本质思考人是怎么学会开车的。最开始人去驾校学习,掌握基本驾驶技能再考试。考完掌握基本能力之后,作为实习司机一边实践一边提升能力,慢慢地成长为老司机。我们系统1+系统2的方案,让自动驾驶系统拥有这种能力去迭代和成长,随着数据量的增长,它会慢慢地让性能随之提升,这个就是大家经常说的规模效应。

张小珺:你们验证了自动驾驶的规模效应吗?

郎咸朋:我们已经验证出来了。这不是我们发明的,所有的大模型应用都符合这种规律,也就是说数据规模和数据质量的增长,会带动性能的增长。而且性能增长是接近于线性的,这就是我们用大模型最本质的好处。

张小珺:有监督智能驾驶阶段,理想交付给用户的产品长什么样?

郎咸朋:全场景的、一体化端到端产品。要想实现有监督智能驾驶,一个前提是实现车位到车位,也就是解决最前面一百米和最后面一百米。以前智驾是从干道开始,现在可以从小区车位开始,然后包括园区道路、泊车、城市道路,还有高速和收费站ETC都会全部打通。

高速城市全场景升级端到端+VLM,以及创新的AI推理可视化的交互,将在近期随OTA全量推送给所有的AD Max用户。

张小珺:L3什么时候实现?

汽车之家

郎咸朋:按照现在的端到端+VLM这套体系,能力继续迭代的话,我们是有希望在2025年去实现L3的。

张小珺:面对李想年初对于智驾的发火,你的职业危机是什么时候解除的?

郎咸朋:我觉得到现在还没解除,因为还没有做到极致。我们的目标是今年综合MPI(城市+高速综合接管里程)做到100公里接管一次的能力。这个接管不是安全接管,不是说你要撞车了才接管,是用户觉得车开得不符合体验、不舒服的接管。到明年、后年,我们会逐渐提升至500公里、甚至1000公里以上。慢慢让大家对智驾越来越自信、越来越依赖。

张小珺:要实现这样的目标,需要储备多少算力和数据?

郎咸朋:要达到500公里的综合MPI(城市+高速综合接管里程),预计需要2000万Clips(视频片段)的水平。如果2000万Clips从不到5%的老司机去筛选,这里隐含的数据量,要达到50亿公里甚至上百亿公里的水平。

04电动车这场仗什么时候能分出胜负手?

张小珺:你现在开车智能驾驶占比是多少?

李想:大概80%左右。

张小珺:剩下的20%是因为你们技术不够行吗?

李想:最主要是我赶时间。

张小珺:端到端是自动驾驶的制胜法宝吗?

李想:我觉得端到端只能解决L3,解决不了L4。

张小珺:什么时候可以100%用自动驾驶?

李想:给我三年的时间,它需要技术到位,也需要产品到位,也需要一些环境和政策到位,也需要消费者对于人工智能的信任到位。

张小珺:电动车这场仗什么时候能分出胜负手?

李想:现在中国的汽车仍然非常内卷。电动化和智能化是两场仗,电动化其实是相当于是一张门票,我认为L4会分出来真正的胜负。但是我们今天在做的所有事情,是为了L4拿门票,因为L4所需要花的钱,所需要拥有的能力,所需要的数据量,是今天所不具备的,所以今天大家要靠这个东西去拿L4的门票。

张小珺:拿L4的门票需要什么条件?

李想:足够多的车跑在路上。

张小珺:多少车?

李想:得500万辆以上。第二你要真的自己掌握VLA(视觉语言行动模型)这个基础模型的能力。第三,你要有足够多的钱去招募最顶级的人才,以及足够的算力,有这三个条件。

张小珺:当满足这些条件且做到足够优秀时,能做出一家像苹果这样的公司吗?

李想:一定会的,一定会的。(编译/汽车之家 颜欢)

展开
打开“财经头条”阅读更多精彩资讯
APP内打开