作者|张霁欣
编辑|冒诗阳
汽车像素(ID:autopix)原创
几天前,小米 SU7 部分推送了最新的先锋版智能驾驶系统,全国都能开、车位到车位,能力超越很多头部新势力。小米的智驾能力,为什么可以快速迭代?我们今天来聊聊,这套很有争议的技术。
2023 年下半年开始,端到端智驾大模型,被公认是实现高阶智能驾驶的技术方向。
将海量真实,或仿真的驾驶数据搜集起来,输入给 AI 大模型进行训练。训练成熟以后,未来的 AI 将可以模仿老司机的驾驶方式,来帮助人类开车。
这套技术先是特斯拉在做,后来小鹏、理想、蔚来、小米,甚至比亚迪。可以说所有前沿车企,人手一个 AI 大模型。但随后,大家发现一个问题,没有人真正追上特斯拉,甚至在很多层面上,差距还越来越大了。
要解决大模型的问题,国内车企分成了两派,一个是华为、小鹏为代表的,继续加强训练。这需要非常大量、优质的训练数据。比如小鹏大模型的训练数据量,已经达到了 2000 万 clips。这是起步晚的小米所做不到的,它积累的数据量仅有 300 万。
如果硬要学小鹏,需要大量的车在路上收集数据,回传之后训练,最快也得一年才能追赶上。这个时间,对于小米来说,有点太久了。
于是小米、理想为代表,国内车企有了第二种方案。在智驾大模型的基础上,加上一个数据体量没那么大的 VLM 模型,作为辅助。
VLM 的全称,是视觉语言模型,可以把图像用文字描述出来,这就需要先理解图像的内容,现在的智驾大模型是通过大量训练,做出的肌肉记忆,优势是反应快,但它不能真的像人类一样,理解场景、思考推断,关键时候能变通。
VLM 就是帮忙解决这个问题的,比如这样一个场景。
现在的智驾大模型,可以准确识别出红框中的要素,并根据大数据提供的驾驶经验,快速做出决策,这个决策大部分时候都没问题,而且可能很老练,但并不意味着智驾大模型能够理解这个场景,知道这里在发生什么。比如行人、车辆、红绿灯之间可能的关系,未来会发生什么变化。
VLM 在这时,可以对场景进行解读,给到补充信息,它能够理解,这是个红灯场景,所以行人在穿过马路,而自己在左转道上,准备等绿灯左转。
简单来说,VLM 就是一个 “看图说话” 能力强的模型,可以辅助 “解读” 很多信息,比如判断哪一条是公交车道、潮汐车道等等。以上这些问题,如果仅靠智驾大模型,需要海量的数据来训练,才能做到接近 100% 的准确度。训练不够时,VLM 像是一个外挂的教练,坐在副驾上,辅助端到端大模型开车
既然这么好,为什么其他车企不用呢?
VLM 最大的问题,是延迟。这个模型要分析和理解场景,所以在车端算力受限时,需要比较长的时间。比如理想的 VLM ,从感知到出结果,大概需要一秒钟左右。要知道,车速在 80 km/h 的时候,一秒钟可以行驶 22 米,这个延迟,是不满足智能驾驶实时性需求的。
另一个问题,是训练的难度。虽然 VLM 模型所需要的数据量,不像智驾大模型那么大,但要求更刁钻,需要在每个训练数据中,都提供图像和文本的对应。这就只能通过人工,做视觉问答标注,过程复杂且耗时。最终的质量也难以保证,毕竟不同人,对于同一个场景的理解,会有偏差,写成文本,差异就更大了。
VLM 能短期内,弥补端到端大模型下限低的问题,给智驾大模型那 0.1% 的问题兜底。但长期来看,这种并列多个模型的路线,并不是智驾的最终局。
本文为汽车像素(autopix)原创内容
未经授权,请勿转载
原文标题 : 小米 SU7 ,智驾方案为何不选华为路线丨Pix视频
作者|张霁欣
编辑|冒诗阳
汽车像素(ID:autopix)原创
几天前,小米 SU7 部分推送了最新的先锋版智能驾驶系统,全国都能开、车位到车位,能力超越很多头部新势力。小米的智驾能力,为什么可以快速迭代?我们今天来聊聊,这套很有争议的技术。
2023 年下半年开始,端到端智驾大模型,被公认是实现高阶智能驾驶的技术方向。
将海量真实,或仿真的驾驶数据搜集起来,输入给 AI 大模型进行训练。训练成熟以后,未来的 AI 将可以模仿老司机的驾驶方式,来帮助人类开车。
这套技术先是特斯拉在做,后来小鹏、理想、蔚来、小米,甚至比亚迪。可以说所有前沿车企,人手一个 AI 大模型。但随后,大家发现一个问题,没有人真正追上特斯拉,甚至在很多层面上,差距还越来越大了。
要解决大模型的问题,国内车企分成了两派,一个是华为、小鹏为代表的,继续加强训练。这需要非常大量、优质的训练数据。比如小鹏大模型的训练数据量,已经达到了 2000 万 clips。这是起步晚的小米所做不到的,它积累的数据量仅有 300 万。
如果硬要学小鹏,需要大量的车在路上收集数据,回传之后训练,最快也得一年才能追赶上。这个时间,对于小米来说,有点太久了。
于是小米、理想为代表,国内车企有了第二种方案。在智驾大模型的基础上,加上一个数据体量没那么大的 VLM 模型,作为辅助。
VLM 的全称,是视觉语言模型,可以把图像用文字描述出来,这就需要先理解图像的内容,现在的智驾大模型是通过大量训练,做出的肌肉记忆,优势是反应快,但它不能真的像人类一样,理解场景、思考推断,关键时候能变通。
VLM 就是帮忙解决这个问题的,比如这样一个场景。
现在的智驾大模型,可以准确识别出红框中的要素,并根据大数据提供的驾驶经验,快速做出决策,这个决策大部分时候都没问题,而且可能很老练,但并不意味着智驾大模型能够理解这个场景,知道这里在发生什么。比如行人、车辆、红绿灯之间可能的关系,未来会发生什么变化。
VLM 在这时,可以对场景进行解读,给到补充信息,它能够理解,这是个红灯场景,所以行人在穿过马路,而自己在左转道上,准备等绿灯左转。
简单来说,VLM 就是一个 “看图说话” 能力强的模型,可以辅助 “解读” 很多信息,比如判断哪一条是公交车道、潮汐车道等等。以上这些问题,如果仅靠智驾大模型,需要海量的数据来训练,才能做到接近 100% 的准确度。训练不够时,VLM 像是一个外挂的教练,坐在副驾上,辅助端到端大模型开车
既然这么好,为什么其他车企不用呢?
VLM 最大的问题,是延迟。这个模型要分析和理解场景,所以在车端算力受限时,需要比较长的时间。比如理想的 VLM ,从感知到出结果,大概需要一秒钟左右。要知道,车速在 80 km/h 的时候,一秒钟可以行驶 22 米,这个延迟,是不满足智能驾驶实时性需求的。
另一个问题,是训练的难度。虽然 VLM 模型所需要的数据量,不像智驾大模型那么大,但要求更刁钻,需要在每个训练数据中,都提供图像和文本的对应。这就只能通过人工,做视觉问答标注,过程复杂且耗时。最终的质量也难以保证,毕竟不同人,对于同一个场景的理解,会有偏差,写成文本,差异就更大了。
VLM 能短期内,弥补端到端大模型下限低的问题,给智驾大模型那 0.1% 的问题兜底。但长期来看,这种并列多个模型的路线,并不是智驾的最终局。
本文为汽车像素(autopix)原创内容
未经授权,请勿转载
原文标题 : 小米 SU7 ,智驾方案为何不选华为路线丨Pix视频