核心观点
(1)超节点和集群:在华为全联接大会 2025 上,华为发布了最新超节点产品 Atlas 950 SuperPoD 和 Atlas 960 SuperPoD 超节点,分别支持 8192 及 15488 张昇腾卡。
面对超节点的互联技术的两个技术难点,华为发布面向超节点的新型互联协议“灵衢”(UB,UnifiedBus)。
基于灵衢 2.0 的 Atlas 950 SuperCluster 50 万卡集群同时发布,在 2027Q4,华为将基于 Atlas 960 超节点,同步推出 Atlas 960 SuperCluster,实现百万卡集群。
(2)昇腾芯片路线图:同时,华为海明确昇腾 950-970系列芯片路线图,未来 3 年开发和规划了三个系列,分别是:Ascend 950系列(包括 Ascend 950PR 预计在 2026Q1 推出;和 Ascend 950DT预计在 2026Q4 推出)、Ascend 960 系列(预计 2027Q4 推出)和Ascend 970 系列(计划 2028Q4 推出)。
(3)全球首个通用计算超节点:最后,华为发布基于 Kunpeng 950 打造的 Taishan 950 超节点,有望平滑替代大型机、小型机上的传统数据库,预计将在 2026Q1 上市。
正文
在华为全联接大会 2025 上,华为发布了最新超节点产品 Atlas 950 SuperPoD 和Atlas 960 SuperPoD 超节点,分别支持 8192 及 15488 张昇腾卡:
相比英伟达同样将在明年下半年上市的 NVL144,Atlas 950 超节点卡的规模是其 56.8 倍,总算力是其 6.7 倍,内存容量是其 15 倍,达到 1152TB;互联带宽是其 62倍,达到 16.3PB/s。
面对超节点的互联技术有两个技术难点:
1、 如何做到长距离&高可靠。当前的电互联技术在高速时联接距离短,最多只能支持两柜互联,而当前的光互联技术虽然可以把长距离的多机柜联接在一起,但无法满足可靠性需求。
2、 如何做到大带宽&低时延。当前跨柜卡间互联带宽低,和超节点的需求差距达5 倍;跨柜的卡间时延大,当前互联技术最好只能做到 3 微秒左右,和 Atlas 950/960设计需求仍然有24%的差距,当时延已经低至2~3个微秒时,已经逼近物理极限,哪怕0.1 微秒的提升,挑战都很大。
华为通过引入高可靠的互联协议机制、重新定义与设计光器件和互联芯片、引入百纳秒级故障检测和保护切换解决长距离且高可靠问题;通过多端口聚合与高密封装技术、平等架构和统一协议,实现 TB 级超大带宽和 2.1 微妙的超低时延。并将这个面向超节点的新型互联协议命名为“灵衢”(UB,UnifiedBus)。
基于灵衢 1.0 的 Atlas 900 超节点(CloudMatrix 384)自 2025 年 3 月开始交付,至今已商用部署 300 多套。在灵衢 1.0 的基础上,灵衢 2.0 进一步完善协议,并优化性能、提升规模,同时华为还将开放灵衢 2.0 技术规范。
基于灵衢 2.0 的 Atlas 950 SuperCluster 50 万卡集群同时发布,由 64 个 Atlas 950 超节点互联组成,将 52 万多昇腾 950DT 组成整体,FP8 总算力可达 524EFLOPS,预计将与 Atlas 950 超节点同步上市;
在灵衢 2.0 架构中,超节点提供 UB-Mesh 的组网技术,UB-Mesh 中的 nD-FullMesh拓扑充分利用了业务数据局部性,优先考虑短程直接互连路径,以最大限度减少数据移动距离并减少交换机使用为目标,是一种兼具高性能和低 成本的拓扑组网。
图 1 中,Rack 内采用 2D-FullMesh 组网,Rack 间采用一层 UB Switch 互连,支持从 64 卡线性扩展到 8192 卡。
UB 除了支持采用多级 UB Switch 扩展组网以外,还支持通过 UBoE 与以太 Switch对接,或者通过 OCS 实现可变拓扑。
在 2027Q4,华为将基于 Atlas 960 超节点,同步推出 Atlas 960 SuperCluster,集群规模进一步提升到百万卡级,FP8 总算力达到 2 ZFLOPS,FP4 总算力达到 4 ZFLOPS。
在集群组网上,华为同时支持 UBoE 与 RoCE 两种协议,UBoE 是把 UB 协议承载在以太网上,让客户能够利用现有以太交换机。相比传统 RoCE,UBoE 组网的静态时延更低、可靠性更高,交换机和光模块数量都更节省。
根据华为官网数据,Atlas 950 SuperCluster 在 RoCE协议需要45000台交换机,300 万个光模块,在 UBoE 协议下,需要 39000 台交换机和 222 万个光模块。
同时,华为海明确昇腾 950-970 系列芯片路线图,未来 3 年开发和规划了三个系列,分别是:
Ascend 950 系列,包括两颗芯片:Ascend 950PR 和 Ascend 950DT,前者主要面向推理 Prefill 阶段和推荐业务场景(电子商务、内容平台、社交媒体等),预计在2026Q1 推出;后者更注重推理 Decode 阶段和训练场景,预计在 2026Q4 推出。
Ascend 960 系列,算力、内存访问带宽、内存容量、互联端口数等规格相比Ascend 950 翻倍,预计在 2027Q4 推出。
Ascend 970 系列,计划在 2028Q4 推出。
最后,华为发布基于 Kunpeng 950 打造的 Taishan 950 超节点,是全球首个通用计算超节点,其最大支持 16 节点,32 个处理器,最大内存 48TB,同时支持内存、SSD、DPU 池化,有望平滑替代大型机、小型机上的传统数据库,预计将在 2026Q1 上市。
注:本文有删减。
核心观点
(1)超节点和集群:在华为全联接大会 2025 上,华为发布了最新超节点产品 Atlas 950 SuperPoD 和 Atlas 960 SuperPoD 超节点,分别支持 8192 及 15488 张昇腾卡。
面对超节点的互联技术的两个技术难点,华为发布面向超节点的新型互联协议“灵衢”(UB,UnifiedBus)。
基于灵衢 2.0 的 Atlas 950 SuperCluster 50 万卡集群同时发布,在 2027Q4,华为将基于 Atlas 960 超节点,同步推出 Atlas 960 SuperCluster,实现百万卡集群。
(2)昇腾芯片路线图:同时,华为海明确昇腾 950-970系列芯片路线图,未来 3 年开发和规划了三个系列,分别是:Ascend 950系列(包括 Ascend 950PR 预计在 2026Q1 推出;和 Ascend 950DT预计在 2026Q4 推出)、Ascend 960 系列(预计 2027Q4 推出)和Ascend 970 系列(计划 2028Q4 推出)。
(3)全球首个通用计算超节点:最后,华为发布基于 Kunpeng 950 打造的 Taishan 950 超节点,有望平滑替代大型机、小型机上的传统数据库,预计将在 2026Q1 上市。
正文
在华为全联接大会 2025 上,华为发布了最新超节点产品 Atlas 950 SuperPoD 和Atlas 960 SuperPoD 超节点,分别支持 8192 及 15488 张昇腾卡:
相比英伟达同样将在明年下半年上市的 NVL144,Atlas 950 超节点卡的规模是其 56.8 倍,总算力是其 6.7 倍,内存容量是其 15 倍,达到 1152TB;互联带宽是其 62倍,达到 16.3PB/s。
面对超节点的互联技术有两个技术难点:
1、 如何做到长距离&高可靠。当前的电互联技术在高速时联接距离短,最多只能支持两柜互联,而当前的光互联技术虽然可以把长距离的多机柜联接在一起,但无法满足可靠性需求。
2、 如何做到大带宽&低时延。当前跨柜卡间互联带宽低,和超节点的需求差距达5 倍;跨柜的卡间时延大,当前互联技术最好只能做到 3 微秒左右,和 Atlas 950/960设计需求仍然有24%的差距,当时延已经低至2~3个微秒时,已经逼近物理极限,哪怕0.1 微秒的提升,挑战都很大。
华为通过引入高可靠的互联协议机制、重新定义与设计光器件和互联芯片、引入百纳秒级故障检测和保护切换解决长距离且高可靠问题;通过多端口聚合与高密封装技术、平等架构和统一协议,实现 TB 级超大带宽和 2.1 微妙的超低时延。并将这个面向超节点的新型互联协议命名为“灵衢”(UB,UnifiedBus)。
基于灵衢 1.0 的 Atlas 900 超节点(CloudMatrix 384)自 2025 年 3 月开始交付,至今已商用部署 300 多套。在灵衢 1.0 的基础上,灵衢 2.0 进一步完善协议,并优化性能、提升规模,同时华为还将开放灵衢 2.0 技术规范。
基于灵衢 2.0 的 Atlas 950 SuperCluster 50 万卡集群同时发布,由 64 个 Atlas 950 超节点互联组成,将 52 万多昇腾 950DT 组成整体,FP8 总算力可达 524EFLOPS,预计将与 Atlas 950 超节点同步上市;
在灵衢 2.0 架构中,超节点提供 UB-Mesh 的组网技术,UB-Mesh 中的 nD-FullMesh拓扑充分利用了业务数据局部性,优先考虑短程直接互连路径,以最大限度减少数据移动距离并减少交换机使用为目标,是一种兼具高性能和低 成本的拓扑组网。
图 1 中,Rack 内采用 2D-FullMesh 组网,Rack 间采用一层 UB Switch 互连,支持从 64 卡线性扩展到 8192 卡。
UB 除了支持采用多级 UB Switch 扩展组网以外,还支持通过 UBoE 与以太 Switch对接,或者通过 OCS 实现可变拓扑。
在 2027Q4,华为将基于 Atlas 960 超节点,同步推出 Atlas 960 SuperCluster,集群规模进一步提升到百万卡级,FP8 总算力达到 2 ZFLOPS,FP4 总算力达到 4 ZFLOPS。
在集群组网上,华为同时支持 UBoE 与 RoCE 两种协议,UBoE 是把 UB 协议承载在以太网上,让客户能够利用现有以太交换机。相比传统 RoCE,UBoE 组网的静态时延更低、可靠性更高,交换机和光模块数量都更节省。
根据华为官网数据,Atlas 950 SuperCluster 在 RoCE协议需要45000台交换机,300 万个光模块,在 UBoE 协议下,需要 39000 台交换机和 222 万个光模块。
同时,华为海明确昇腾 950-970 系列芯片路线图,未来 3 年开发和规划了三个系列,分别是:
Ascend 950 系列,包括两颗芯片:Ascend 950PR 和 Ascend 950DT,前者主要面向推理 Prefill 阶段和推荐业务场景(电子商务、内容平台、社交媒体等),预计在2026Q1 推出;后者更注重推理 Decode 阶段和训练场景,预计在 2026Q4 推出。
Ascend 960 系列,算力、内存访问带宽、内存容量、互联端口数等规格相比Ascend 950 翻倍,预计在 2027Q4 推出。
Ascend 970 系列,计划在 2028Q4 推出。
最后,华为发布基于 Kunpeng 950 打造的 Taishan 950 超节点,是全球首个通用计算超节点,其最大支持 16 节点,32 个处理器,最大内存 48TB,同时支持内存、SSD、DPU 池化,有望平滑替代大型机、小型机上的传统数据库,预计将在 2026Q1 上市。
注:本文有删减。