自动驾驶中常提的VLM是个啥？与VLA有什么区别？

财经头条

提升一亿中产阶级阅读效率

打开

智车科技

1天前

之前和大家讨论过VLA（相关阅读：自动驾驶中常提的VLA是个啥。...因此，VLA模型不仅承担感知和理解任务，还需要完成行为决策和动作控制，是面向真实世界“感知—认知—执行”闭环系统的关键技术，其典型应用包括自动驾驶、机器人导航、智能操作臂等。

自动驾驶车辆要在复杂多变的道路环境中安全行驶，不仅需要“看见”前方的车辆、行人和路面标志，还需要“读懂”交通标识上的文字提示、施工告示牌和乘客的语言指令。之前和大家讨论过VLA（相关阅读：自动驾驶中常提的VLA是个啥？），了解到视觉-语言-动作模型，但在很多场景中，大家还会提到VLM，看起来与VLA非常类似，那VLM又是个啥？与VLA（Vision-Language-Action，视觉-语言-动作）又有什么区别？

什么是VLM?

VLM即视觉-语言模型（Vision–Language Model），是一类让计算机“看懂”图像和“读懂”文字能力合二为一的人工智能系统，它通过在同一个模型中联合处理视觉特征和语言信息，实现对图片或视频内容的深度理解与自然语言互动。VLM可以抽取图像中的物体形状、颜色、位置甚至动作，然后将这些视觉嵌入与文本嵌入在多模态 Transformer 中融合，让模型学会把“画面”映射成语义概念，再通过语言解码器生成符合人类表达习惯的文字描述、回答问题或创作故事。通俗来说，VLM 就像拥有视觉和语言双重感官的“大脑”，能够在看到一张照片后，不仅识别出里面的猫狗、车辆或建筑，还能用一句话或一段话把它们生动地说出来，大大提升了 AI 在图文检索、辅助写作、智能客服和机器人导航等场景中的实用价值。

如何让VLM高效工作？

VLM可以将一帧原始的道路图像转换为计算机能处理的特征表示。这一过程通常由视觉编码器完成，主流方案包括卷积神经网络（CNN）和近年来兴起的视觉Transformer（ViT）。它们会对图像进行分层处理，提取出道路纹理、车辆轮廓、行人形状以及路牌文字等多种视觉特征，并将它们编码为向量形式。语言编码器和语言解码器则负责处理自然语言的输入与输出，也采用基于Transformer的架构，将文字拆分为Token，然后学习各个Token之间的语义关联，并能够根据给定的向量特征生成连贯的语言描述。

将视觉编码器得到的图像特征和语言模块进行对齐是VLM的关键所在。常见的做法是通过跨模态注意力（cross-attention）机制，让语言解码器在生成每个文字Token时，能够自动关注到图像中与该文字最相关的区域。比如在识别“前方施工，请减速慢行”这句话时，模型会在图像中着重关注黄色施工标志、交通锥或挖掘机等显著区域，从而保证生成的文字与实际场景高度一致。整个系统可以端到端联合训练，也就是说模型的损失函数会同时考虑视觉特征提取的准确性和语言生成的流畅性，通过不断迭代，将两者的性能共同提升。

为了让VLM更好地适应自动驾驶的特殊场景，训练过程通常分为预训练和微调两个阶段。在预训练阶段，会利用海量的网络图文，比如从互联网收集的大规模图片和对应的标题、说明文字，让模型先掌握通用的视觉-语言对应关系。这一阶段的目标是让模型具备跨领域的基本能力，能识别多种物体、理解常见场景、生成自然表达。随后，进入微调阶段，需要采集自动驾驶专属的数据集，这其中包括各种道路类型（城市道路、高速公路、乡村公路）、多种天气条件（晴天、雨雪、夜晚）、不同交通设施（施工区域、隧道、十字路口）等场景下的图像，并配以专业标注的文字描述。通过这种有针对性的训练，模型才能在实际行驶中精准识别交通标志上的文字信息，并及时生成符合交通法规和行驶安全的提示语。

在实际应用中，VLM能够支持多种智能化功能。首先是实时场景提示。当车辆行驶在突遇施工、积水、落石等危险区域时，VLM会识别路面状况，结合图像中出现的施工标志、警示牌或水坑轮廓，自动生成“前方道路施工，请提前减速”或“前方积水较深，请绕行”的自然语言提示，并将该提示通过仪表盘或车载语音播报给驾驶员。其次是交互式语义问答。乘客可通过语音助手询问“前方哪条车道最快？”、“我还能在下一个路口右转吗？”等问题，系统会将语音转文字后，结合当前图像和地图数据，利用VLM回答“从左侧车道行驶可避开前方拥堵，请注意车距”或“前方禁止右转，请继续直行”之类的文字回复。再者，VLM还可对路标与路牌文字识别，它不仅对交通标志的图形进行分类，还能识别标志牌上的文字信息，将“限高3.5米”“禁止掉头”“施工中”等信息结构化地传递给决策模块。

为了让VLM在车载环境中实时运行，通常会采用“边缘-云协同”架构。在云端完成大规模预训练和定期微调，将性能最优的模型权重通过OTA（Over-The-Air）下发到车载单元；车载单元部署经过剪枝、量化和蒸馏等技术优化后的轻量级推理模型，依托车载GPU或NPU在毫秒级别内完成图像与语言的联合推理。对于对时延要求极高的安全提示，优先使用本地推理结果；对于更加复杂的非安全场景分析，如行程总结或高级报告，则可异步将数据上传云端进行深度处理。

数据标注与质量保障是VLM部署的另一大关键。标注团队需要在不同光照、天气、道路类型条件下采集多视角、多样本图像，并为每张图像配备详尽的文字描述。如对一张高速路施工场景的图像，不仅要框选出施工车辆、路障和交通锥，还要撰写“前方高速公路正在施工，左侧车道封闭，请向右变道并减速至60公里/小时以内”的自然语言说明。为了保证标注一致性，通常会进行多轮审核和校验，并引入弱监督策略对大量未标注图像生成伪标签，降低人工成本的同时保持数据多样性与标注质量。

安全性与鲁棒性是自动驾驶的核心要求。当VLM在雨雪、雾霾或复杂光照条件下出现识别错误时，系统必须迅速评估其不确定性，并及时采取冗余措施。常见做法有利用模型集成（Ensemble）或贝叶斯深度学习（BayesianDL）计算输出置信度，当置信度低于阈值时，系统退回至传统多传感器融合感知结果，或提示驾驶员手动接管。与此同时，跨模态注意力的可解释性工具能够帮助在事故复盘时追踪模型的决策过程，明确模型为何在某一帧图像中生成特定提示，从而为系统迭代和责任认定提供依据。

随着大语言模型（LLM）和大视觉模型（LVM）的持续发展，VLM将在多模态融合、知识更新和人机协同方面取得更大突破。系统不仅能处理摄像头图像，还会整合雷达、LiDAR和V2X（Vehicle-to-Everything）数据，使得对车辆周边环境的感知更为全面；同时将实时获取的交通法规更新、路政公告和气象预报输入语言模型，为车辆决策和提示提供最新背景知识；在交互方式上，乘客可通过语音、手势和触摸屏多模态联合输入，获取更加自然、有效的行驶建议。

VLA与VLM有何差别？

VLA与VLM都是大模型的重要技术，那两者又有何区别？VLA和VLM虽然都属于多模态大模型体系，但在模型架构、目标任务、输出类型和应用场景上其实存在根本差异。VLM主要解决的是图像与语言之间的关联问题，其核心能力是对图像进行语义理解，并通过语言表达这种理解，输出形式通常是自然语言，例如图像描述、视觉问答、图文匹配、图文生成等，代表任务包括“这张图里有什么？”“这个图和这段话是否匹配？”等，广泛应用于AI助手、搜索引擎、内容生成和信息提取等领域。

VLA则是VLM的进一步扩展，它不仅需要理解图像中的视觉信息和语言指令，还要将两者融合后生成可执行的动作决策，输出不再是文本，而是物理控制信号或动作计划，例如加速、刹车、转弯等。因此，VLA模型不仅承担感知和理解任务，还需要完成行为决策和动作控制，是面向真实世界“感知—认知—执行”闭环系统的关键技术，其典型应用包括自动驾驶、机器人导航、智能操作臂等。可以说，VLM是“看懂+说清楚”，而VLA是“看懂+听懂+做对”，前者更偏向信息理解与表达，后者则更聚焦智能体的自主行为能力和决策执行能力。

最后的话

视觉-语言模型通过将图像感知与自然语言处理相结合，为自动驾驶系统提供了更丰富、更灵活的语义层面支持。它不仅能帮助车辆“看懂”复杂的道路场景，还能用“看得懂”的自然语言与人类驾驶员或乘客进行高效交互。尽管在模型体积、实时性、数据标注与安全保障等方面仍面临挑战，但随着算法优化、边缘计算与车联网技术的不断进步，VLM定将成为推动智能驾驶进入“感知-理解-决策”一体化时代的关键引擎，为未来出行带来更高的安全性和舒适性。

-- END --

原文标题 : 自动驾驶中常提的VLM是个啥？与VLA有什么区别？