华为盘古大模型在自动驾驶领域做了什么?

智车科技

16小时前

世界模型在自动驾驶领域的一个典型应用是复杂边缘场景的重建,广汽集团与华为云合作,基于盘古多模态大模型实现了2D视频与3D点云数据在像素级别的精确对应,能够在数分钟内完成复杂场景的复原。

就在最近,华为的盘古大模型因某些事件被大家广泛讨论,智驾最前沿作为一个以技术内容为主的平台,仅聊技术,不聊八卦,但也想蹭一蹭热点,今天就基于网上的公开资料以及一些官方的宣传内容,给大家理一下盘古大模型及其在自动驾驶领域的技术布局,也希望大家理性评论!

盘古大模型的技术架构与演进

盘古大模型最早于2021年4月在华为开发者大会上正式对外发布,初始阶段主要包含NLP(自然语言处理)、CV(计算机视觉)和科学计算三大基础模型。盘古NLP大模型是业界首个千亿级参数的中文预训练大模型,CV大模型则具备30亿参数,两者在当时均处于行业领先水平。

2022年4月,盘古大模型升级至2.0版本,正式确立了L0、L1、L2的分层开发架构。同年,华为陆续发布了面向矿山、气象、海浪等垂直场景的行业大模型,标志着盘古从通用大模型向行业应用的延伸。2023年7月,盘古大模型3.0正式发布,确立了5+N+X的分层架构,并明确提出不作诗,只做事的定位,专注于B端产业场景落地。

图片源自:网络

此后,盘古大模型保持每年一次的升级节奏,2024年6月发布5.0版本,引入可控时空生成(STCG)技术;2025年6月发布5.5版本,五大基础模型全面升级;2026年6月正式发布openPangu 2.0,并计划于计划‌2026年6月30日‌起,分批开放包括预训练代码、后训练代码、训练算子等在内的‌7大核心组件。

盘古大模型的底层训练是基于华为自研的昇腾AI云服务,在硬件上,2025年6月发布的新一代昇腾AI云服务采用CloudMatrix 384超节点架构,将384颗昇腾NPU与192颗鲲鹏CPU通过全对等互联整合为一台超级AI服务器,单卡推理吞吐量达到2300 Tokens/s,相比非超节点架构提升约4倍。该云服务同时支持PyTorch、TensorFlow等主流AI框架,并提供算子迁移工具,可将大部分从GPU平台开发的算子迁移至昇腾平台运行。

在软件架构层面,盘古大模型采用5+N+X三层设计。L0层包含自然语言处理、计算机视觉、多模态、预测及科学计算等五个基础大模型,经过千亿级参数的预训练形成通用能力底座。L1层是在基础模型之上,通过行业数据注入训练形成的行业大模型,覆盖政务、金融、制造、矿山、气象等领域。L2层则聚焦具体业务场景进行精调,提供场景化的模型服务。这种分层解耦的设计允许客户独立加载数据集、单独升级基础模型或能力集,也可根据数据安全和合规需求选择公有云、大模型云专区或混合云等部署形态。

图片源自:网络

盘古大模型5.5版本于2025年6月正式发布,五大基础模型均进行了升级。

NLP大模型推出了7180亿参数的MoE深度思考模型,由256个专家组成,在知识推理、工具调用、数学等领域能力有所增强。自适应快慢思考融合让模型可根据问题难易程度自动切换思考模式,简单问题快速响应,复杂问题调动更多算力进行推理,整体推理效率提升8倍。此外,Pangu DeepDiver通过搜索强度缩放技术在真实互联网环境下进行探索式训练,7B规模的DeepDiver在多个基准测试中的表现与671B的DeepSeek-R1相当。

CV大模型升级为300亿参数的MoE架构视觉大模型,据称是当时业界最大的视觉模型,全面支持图像、红外、激光点云、光谱、雷达等多维度感知、分析与决策。

预测大模型则采用了triplet transformer统一预训练架构,将不同行业的数据(如工艺参数的表格数据、设备运行日志的时间序列数据、产品检测的图片数据)进行统一的三元组编码,在同一框架内高效处理和预训练。

多模态大模型的升级方向则是世界模型,后面会单独展开讨论。

科学计算大模型则是与深圳气象局合作升级了智霁大模型,首次实现AI集合预报;与重庆市气象局打造了天资·12h气象大模型,可用于灾害性天气的日内预报预警。

整体来看,盘古大模型的技术路线强调行业落地而不是通用对话能力,其分层设计和对计算效率的优化都是围绕这一目标展开的。

盘古世界模型与STCG,自动驾驶开发的新路径

在自动驾驶开发中,数据一直是最核心的瓶颈,要让自动驾驶系统达到足够的可靠性,理论上需要基于真实道路采集的上百亿公里驾驶数据进行训练,这对任何车企来说都是不可承受的成本。盘古大模型针对这一问题提出的解决方案,经历了从STCG到世界模型两个阶段。

1)STCG,让模型理解物理世界

可控时空生成技术(STCG)是盘古5.0版本推出的能力,其核心在于让大模型生成不仅视觉上逼真、而且符合物理规律的驾驶视频。与传统仿真工具依赖游戏渲染引擎不同,STCG直接在模型内部嵌入了对空间结构和时间变化的建模,车辆在不同摄像头视角之间的过渡是平滑的,在不同天气和光照条件下行驶时,车辆行为也符合现实逻辑,如在雨天生成的视频中,车辆会自动开启尾灯。在HDC 2024的现场演示中,模型就生成了从空无一人街道到多车交汇复杂路况的场景,并在一键切换晴天与雨天时同步改变了车辆细节。

图片源自:网络

从技术实现上看,盘古在视频生成大模型的VAE和DiT架构基础上增加了3D边界框编码器、BEV路网编码器和相机轨迹编码器三个输入模块,通过对3D边界框和BEV路网图的联合处理,可实现多视角关联学习。其训练数据采用了六个视角的摄像头数据,累计采集和治理了20万帧高质量数据,结合场景视频生成、4D BEV视频生成、自动驾驶仿真库以及路网信息,STCG能够大规模生成物理一致的驾驶视频数据,并可灵活增加控制条件,定制化生成不同路况、光照和天气的训练数据。STCG还能生成随机性、偶发性、对抗性场景,也就是自动驾驶开发中难以通过真实路采大量获取的边缘场景。

2)世界模型,从生成视频到构建数字空间

盘古世界模型于2025年发布,其建立在多模态大模型的基础之上,它的输入量极小,在智能驾驶领域,只需输入首帧行车场景、行车控制信息和路网数据,就能生成每路摄像头的行车视频和对应的激光雷达点云数据。换言之,从一个初始状态出发,模型可以持续想象出接下来的整个驾驶过程,生成帧率达到每秒30帧的视频续写能力。

世界模型在自动驾驶领域的一个典型应用是复杂边缘场景的重建,广汽集团与华为云合作,基于盘古多模态大模型实现了2D视频与3D点云数据在像素级别的精确对应,能够在数分钟内完成复杂场景的复原。广汽在此基础上还开发了神行仿真平台,其可控视频生成的几何一致性提升了80%。由于传统的仿真场景构建需要大量人工建模,而世界模型可以直接从有限输入生成完整的仿真环境,供端到端自动驾驶模型进行迭代训练,因此这种快速重建边缘场景的能力,是传统仿真工具难以实现的。

图片源自:网络

世界模型还展示了盘古在更广泛物理模拟场景中的能力,在火星探测演示中,基于单张火星地表图片,世界模型可生成高精度的数字物理空间,用于火星车的避障训练和机械臂操作的模拟。尽管这与自动驾驶并不直接相关,但它反映了模型在多模态生成和物理规律建模方面的基础能力。

在这里一定需要补充的是,仿真数据能否完全替代真实路采数据,业内仍然存在讨论。仿真数据的分布偏差、模型在仿真环境中过拟合等问题尚未完全解决,但STCG和世界模型至少提供了一种增加数据多样性、弥补真实数据稀缺性的方法,其价值在于帮助开发者更高效地覆盖更多的边缘场景,而不是完全取代真实路测。

八爪鱼平台,技术能力的工程化集成

盘古大模型的能力并非独立存在的,而是通过华为云的八爪鱼自动驾驶云服务平台向车企和开发者开放。八爪鱼是一个一站式的全托管自动驾驶开发平台,整合了数据标注、模型训练、仿真测试等环节的工具链。

图片源自:网络

在数据标注环节,盘古大模型提供了自动标注能力,支持2D、2.5D和3D的自动标注,据称标注准确率超过90%。在场景理解能力上,模型能够代替人工进行视频片段的分类和标签化处理,万段视频可以在分钟级完成处理。在数据检索方面,平台支持以文搜图、以图搜图等多模态检索能力,可在百万图片库中实现分钟级检索。

华为八爪鱼自动驾驶云服务平台还提供了并行仿真能力,可利用云端资源同时运行‌1000+仿真节点‌,实现‌日行千万公里级‌的虚拟测试里程。平台内置‌20万+结构化仿真场景库‌,并支持用户通过‌自定义标签体系与‌可编程评估脚本‌,灵活构建专属的场景组合与测评指标,全面支撑车企高效验证算法性能,加速自动驾驶功能量产落地。

值得一提的是,八爪鱼平台与盘古世界模型已经进行了深度整合,世界模型的视频和点云多视角生成能力被直接用于端到端智驾模型的并行仿真,车企可以基于生成的仿真数据对模型进行快速迭代测试。据广汽方面的数据,这种技术组合支撑了端到端模型两天一个版本的迭代节奏,不过从行业通用标准来看,这种迭代速度更多反映的是在仿真环境中的模型调优效率,真实道路测试仍然需要按照安全规范逐级推进。

行业应用现状与面临的挑战

从公开信息来看,盘古大模型在汽车行业的部署已有一定规模,华为云在2024年被沙利文评为中国汽车大模型市场领先者,已有超过300家汽车行业客户采用其解决方案。一汽解放与华为基于盘古大模型开展了多个场景的验证测试;华为云自动驾驶开发平台已在长安、一汽、比亚迪、广汽等多家车企以及矿用卡车、港口ART、专线物流重卡等商用车场景中部署。

图片源自:网络

在商用车领域,盘古大模型被用于自动驾驶算法的开发验证和优化迭代,帮助降低测试成本和风险。不过这些合作项目大多仍处于验证测试阶段,距离大规模量产应用还有一定的距离。

在自动驾驶领域,仿真数据与真实数据之间的域差距一直是行业共同面对的问题,尽管STCG生成的视频在视觉上接近真实,但仿真环境始终无法完全复制真实道路中所有不确定性因素,模型在仿真中表现良好不等于在实际道路中同样可靠。此外,边缘场景生成的边界范围也难以界定,生成的场景是否覆盖了足够多类型的危险情境,是否存在未被覆盖的盲区,这些问题的验证成本本身就很高。再者,盘古大模型的架构和部分技术细节尚未完全公开,行业对其技术水平的评估主要依赖华为官方发布的基准测试结果,第三方独立验证仍然有限。

最后的话

从技术发展趋势来看,盘古大模型为自动驾驶开发提供了一条与传统依赖大规模路采数据不同的技术路径,即用生成式仿真驱动数据补充和模型迭代。STCG和世界模型在物理一致性生成和多模态数据对齐方面已经展示了可行的方法,八爪鱼平台将这些能力整合为开发者可用的工具链。

当然,这并不意味着自动驾驶的路测可以被替代,更准确的理解是,盘古大模型提供了一种降低数据获取成本、提高边缘场景覆盖效率的方法,它将在自动驾驶开发的工具链中扮演一个重要的辅助角色,但距离成为自动驾驶技术的完全解决方案还有相当长的路要走。

-- END --

原文标题 : 华为盘古大模型在自动驾驶领域做了什么?

世界模型在自动驾驶领域的一个典型应用是复杂边缘场景的重建,广汽集团与华为云合作,基于盘古多模态大模型实现了2D视频与3D点云数据在像素级别的精确对应,能够在数分钟内完成复杂场景的复原。

就在最近,华为的盘古大模型因某些事件被大家广泛讨论,智驾最前沿作为一个以技术内容为主的平台,仅聊技术,不聊八卦,但也想蹭一蹭热点,今天就基于网上的公开资料以及一些官方的宣传内容,给大家理一下盘古大模型及其在自动驾驶领域的技术布局,也希望大家理性评论!

盘古大模型的技术架构与演进

盘古大模型最早于2021年4月在华为开发者大会上正式对外发布,初始阶段主要包含NLP(自然语言处理)、CV(计算机视觉)和科学计算三大基础模型。盘古NLP大模型是业界首个千亿级参数的中文预训练大模型,CV大模型则具备30亿参数,两者在当时均处于行业领先水平。

2022年4月,盘古大模型升级至2.0版本,正式确立了L0、L1、L2的分层开发架构。同年,华为陆续发布了面向矿山、气象、海浪等垂直场景的行业大模型,标志着盘古从通用大模型向行业应用的延伸。2023年7月,盘古大模型3.0正式发布,确立了5+N+X的分层架构,并明确提出不作诗,只做事的定位,专注于B端产业场景落地。

图片源自:网络

此后,盘古大模型保持每年一次的升级节奏,2024年6月发布5.0版本,引入可控时空生成(STCG)技术;2025年6月发布5.5版本,五大基础模型全面升级;2026年6月正式发布openPangu 2.0,并计划于计划‌2026年6月30日‌起,分批开放包括预训练代码、后训练代码、训练算子等在内的‌7大核心组件。

盘古大模型的底层训练是基于华为自研的昇腾AI云服务,在硬件上,2025年6月发布的新一代昇腾AI云服务采用CloudMatrix 384超节点架构,将384颗昇腾NPU与192颗鲲鹏CPU通过全对等互联整合为一台超级AI服务器,单卡推理吞吐量达到2300 Tokens/s,相比非超节点架构提升约4倍。该云服务同时支持PyTorch、TensorFlow等主流AI框架,并提供算子迁移工具,可将大部分从GPU平台开发的算子迁移至昇腾平台运行。

在软件架构层面,盘古大模型采用5+N+X三层设计。L0层包含自然语言处理、计算机视觉、多模态、预测及科学计算等五个基础大模型,经过千亿级参数的预训练形成通用能力底座。L1层是在基础模型之上,通过行业数据注入训练形成的行业大模型,覆盖政务、金融、制造、矿山、气象等领域。L2层则聚焦具体业务场景进行精调,提供场景化的模型服务。这种分层解耦的设计允许客户独立加载数据集、单独升级基础模型或能力集,也可根据数据安全和合规需求选择公有云、大模型云专区或混合云等部署形态。

图片源自:网络

盘古大模型5.5版本于2025年6月正式发布,五大基础模型均进行了升级。

NLP大模型推出了7180亿参数的MoE深度思考模型,由256个专家组成,在知识推理、工具调用、数学等领域能力有所增强。自适应快慢思考融合让模型可根据问题难易程度自动切换思考模式,简单问题快速响应,复杂问题调动更多算力进行推理,整体推理效率提升8倍。此外,Pangu DeepDiver通过搜索强度缩放技术在真实互联网环境下进行探索式训练,7B规模的DeepDiver在多个基准测试中的表现与671B的DeepSeek-R1相当。

CV大模型升级为300亿参数的MoE架构视觉大模型,据称是当时业界最大的视觉模型,全面支持图像、红外、激光点云、光谱、雷达等多维度感知、分析与决策。

预测大模型则采用了triplet transformer统一预训练架构,将不同行业的数据(如工艺参数的表格数据、设备运行日志的时间序列数据、产品检测的图片数据)进行统一的三元组编码,在同一框架内高效处理和预训练。

多模态大模型的升级方向则是世界模型,后面会单独展开讨论。

科学计算大模型则是与深圳气象局合作升级了智霁大模型,首次实现AI集合预报;与重庆市气象局打造了天资·12h气象大模型,可用于灾害性天气的日内预报预警。

整体来看,盘古大模型的技术路线强调行业落地而不是通用对话能力,其分层设计和对计算效率的优化都是围绕这一目标展开的。

盘古世界模型与STCG,自动驾驶开发的新路径

在自动驾驶开发中,数据一直是最核心的瓶颈,要让自动驾驶系统达到足够的可靠性,理论上需要基于真实道路采集的上百亿公里驾驶数据进行训练,这对任何车企来说都是不可承受的成本。盘古大模型针对这一问题提出的解决方案,经历了从STCG到世界模型两个阶段。

1)STCG,让模型理解物理世界

可控时空生成技术(STCG)是盘古5.0版本推出的能力,其核心在于让大模型生成不仅视觉上逼真、而且符合物理规律的驾驶视频。与传统仿真工具依赖游戏渲染引擎不同,STCG直接在模型内部嵌入了对空间结构和时间变化的建模,车辆在不同摄像头视角之间的过渡是平滑的,在不同天气和光照条件下行驶时,车辆行为也符合现实逻辑,如在雨天生成的视频中,车辆会自动开启尾灯。在HDC 2024的现场演示中,模型就生成了从空无一人街道到多车交汇复杂路况的场景,并在一键切换晴天与雨天时同步改变了车辆细节。

图片源自:网络

从技术实现上看,盘古在视频生成大模型的VAE和DiT架构基础上增加了3D边界框编码器、BEV路网编码器和相机轨迹编码器三个输入模块,通过对3D边界框和BEV路网图的联合处理,可实现多视角关联学习。其训练数据采用了六个视角的摄像头数据,累计采集和治理了20万帧高质量数据,结合场景视频生成、4D BEV视频生成、自动驾驶仿真库以及路网信息,STCG能够大规模生成物理一致的驾驶视频数据,并可灵活增加控制条件,定制化生成不同路况、光照和天气的训练数据。STCG还能生成随机性、偶发性、对抗性场景,也就是自动驾驶开发中难以通过真实路采大量获取的边缘场景。

2)世界模型,从生成视频到构建数字空间

盘古世界模型于2025年发布,其建立在多模态大模型的基础之上,它的输入量极小,在智能驾驶领域,只需输入首帧行车场景、行车控制信息和路网数据,就能生成每路摄像头的行车视频和对应的激光雷达点云数据。换言之,从一个初始状态出发,模型可以持续想象出接下来的整个驾驶过程,生成帧率达到每秒30帧的视频续写能力。

世界模型在自动驾驶领域的一个典型应用是复杂边缘场景的重建,广汽集团与华为云合作,基于盘古多模态大模型实现了2D视频与3D点云数据在像素级别的精确对应,能够在数分钟内完成复杂场景的复原。广汽在此基础上还开发了神行仿真平台,其可控视频生成的几何一致性提升了80%。由于传统的仿真场景构建需要大量人工建模,而世界模型可以直接从有限输入生成完整的仿真环境,供端到端自动驾驶模型进行迭代训练,因此这种快速重建边缘场景的能力,是传统仿真工具难以实现的。

图片源自:网络

世界模型还展示了盘古在更广泛物理模拟场景中的能力,在火星探测演示中,基于单张火星地表图片,世界模型可生成高精度的数字物理空间,用于火星车的避障训练和机械臂操作的模拟。尽管这与自动驾驶并不直接相关,但它反映了模型在多模态生成和物理规律建模方面的基础能力。

在这里一定需要补充的是,仿真数据能否完全替代真实路采数据,业内仍然存在讨论。仿真数据的分布偏差、模型在仿真环境中过拟合等问题尚未完全解决,但STCG和世界模型至少提供了一种增加数据多样性、弥补真实数据稀缺性的方法,其价值在于帮助开发者更高效地覆盖更多的边缘场景,而不是完全取代真实路测。

八爪鱼平台,技术能力的工程化集成

盘古大模型的能力并非独立存在的,而是通过华为云的八爪鱼自动驾驶云服务平台向车企和开发者开放。八爪鱼是一个一站式的全托管自动驾驶开发平台,整合了数据标注、模型训练、仿真测试等环节的工具链。

图片源自:网络

在数据标注环节,盘古大模型提供了自动标注能力,支持2D、2.5D和3D的自动标注,据称标注准确率超过90%。在场景理解能力上,模型能够代替人工进行视频片段的分类和标签化处理,万段视频可以在分钟级完成处理。在数据检索方面,平台支持以文搜图、以图搜图等多模态检索能力,可在百万图片库中实现分钟级检索。

华为八爪鱼自动驾驶云服务平台还提供了并行仿真能力,可利用云端资源同时运行‌1000+仿真节点‌,实现‌日行千万公里级‌的虚拟测试里程。平台内置‌20万+结构化仿真场景库‌,并支持用户通过‌自定义标签体系与‌可编程评估脚本‌,灵活构建专属的场景组合与测评指标,全面支撑车企高效验证算法性能,加速自动驾驶功能量产落地。

值得一提的是,八爪鱼平台与盘古世界模型已经进行了深度整合,世界模型的视频和点云多视角生成能力被直接用于端到端智驾模型的并行仿真,车企可以基于生成的仿真数据对模型进行快速迭代测试。据广汽方面的数据,这种技术组合支撑了端到端模型两天一个版本的迭代节奏,不过从行业通用标准来看,这种迭代速度更多反映的是在仿真环境中的模型调优效率,真实道路测试仍然需要按照安全规范逐级推进。

行业应用现状与面临的挑战

从公开信息来看,盘古大模型在汽车行业的部署已有一定规模,华为云在2024年被沙利文评为中国汽车大模型市场领先者,已有超过300家汽车行业客户采用其解决方案。一汽解放与华为基于盘古大模型开展了多个场景的验证测试;华为云自动驾驶开发平台已在长安、一汽、比亚迪、广汽等多家车企以及矿用卡车、港口ART、专线物流重卡等商用车场景中部署。

图片源自:网络

在商用车领域,盘古大模型被用于自动驾驶算法的开发验证和优化迭代,帮助降低测试成本和风险。不过这些合作项目大多仍处于验证测试阶段,距离大规模量产应用还有一定的距离。

在自动驾驶领域,仿真数据与真实数据之间的域差距一直是行业共同面对的问题,尽管STCG生成的视频在视觉上接近真实,但仿真环境始终无法完全复制真实道路中所有不确定性因素,模型在仿真中表现良好不等于在实际道路中同样可靠。此外,边缘场景生成的边界范围也难以界定,生成的场景是否覆盖了足够多类型的危险情境,是否存在未被覆盖的盲区,这些问题的验证成本本身就很高。再者,盘古大模型的架构和部分技术细节尚未完全公开,行业对其技术水平的评估主要依赖华为官方发布的基准测试结果,第三方独立验证仍然有限。

最后的话

从技术发展趋势来看,盘古大模型为自动驾驶开发提供了一条与传统依赖大规模路采数据不同的技术路径,即用生成式仿真驱动数据补充和模型迭代。STCG和世界模型在物理一致性生成和多模态数据对齐方面已经展示了可行的方法,八爪鱼平台将这些能力整合为开发者可用的工具链。

当然,这并不意味着自动驾驶的路测可以被替代,更准确的理解是,盘古大模型提供了一种降低数据获取成本、提高边缘场景覆盖效率的方法,它将在自动驾驶开发的工具链中扮演一个重要的辅助角色,但距离成为自动驾驶技术的完全解决方案还有相当长的路要走。

-- END --

原文标题 : 华为盘古大模型在自动驾驶领域做了什么?

展开
财经头条声明:所载内容仅为传递信息目的,非本站观点,亦非投资建议。据此操作,风险自负。 商务合作:zb@feheadline.com
打开“财经头条”阅读更多精彩资讯
APP内打开