昇腾AI开发者峰会今日开幕:华为廖恒详解昇腾超节点技术底座

通信产业网

1周前

(记者党博文)5月22日,昇腾AI开发者峰会在北京召开。

【通信产业网讯】(记者 党博文)5月22日,昇腾AI开发者峰会在北京召开。华为公司Fellow、半导体首席科学家廖恒发表题为《面向Agentic AI时代的昇腾超节点最佳实践》的主题演讲,解读昇腾超节点技术如何为智能体时代的大规模算力需求提供支撑。

随着大模型从千亿稠密走向万亿稀疏,AI应用正从单模型推理向多智能体协同的Agentic AI时代演进。这一趋势对算力集群的规模、通信效率与系统可靠性提出了前所未有的挑战模型训练需要更高的算力密度,多智能体交互则要求全链路极低时延通信,传统集群架构的瓶颈日益凸显。

昇腾作为业内较早提出并实现超节点规模化商用的算力平台,其超节点技术正是为应对上述挑战设计。

廖恒在分享中表示,单卡算力从来不是决定AI性能的唯一标准,在即将到来的Agentic AI时代,其重要性还将进一步下降。华为用一个公式重新定义了AI芯片的评价体系,系统业务性能=节点规格×单颗芯片的规格。这意味着,再强的单卡,如果不能在集群中高效协同,最终的实际业务表现都会大打折扣。

在廖恒看来,一款均衡的AI芯片,需要兼顾“内存带宽、内存容量、互联带宽、AI算力”四个指标,就像木桶的四块板,任何一块存在短板,都会限制整体性能。如果把AI芯片比作一辆车,算力是发动机马力,内存带宽是高速公路的车道数,内存容量是油箱大小,互联带宽则是连接不同车辆的交通网络。

廖恒还公开了不同AI场景的资源瓶颈排序,指出不同应用场景对芯片指标的侧重不同。大模型预训练阶段,算力是首要需求;推理Prefill阶段,即AI接收用户输入的瞬间,算力和内存带宽同等重要;而推理Decode和后训练阶段,也就是日常AI聊天、写代码、多轮对话的过程,主要瓶颈已转变为内存带宽。

这是Agentic AI时代的一个重要变化。未来90%以上的算力消耗,都会集中在智能体的思考、交互和工具调用上。在这些场景中,算力资源往往存在闲置,而内存带宽成为制约性能的主要因素。

基于这一判断,廖恒重点介绍了两款定位不同的昇腾950系列芯片。昇腾950PR FP16算力425TFLOPS,内存带宽1.4~1.6TB/s,兼顾预训练和通用推理,性价比突出,适合大多数开发者;昇腾950DT则侧重推理场景优化,其FP16算力为486TFLOPS,较950PR高14%,但内存带宽达到4TB/s,是前者的2.5至2.8倍。该芯片的比较优势在于“内存带宽/美元”,可更好地满足Agentic AI多轮交互、长上下文推理的需求。

芯片互联带宽决定了超节点的扩展能力。两款芯片均配备2TB/s的高速互联带宽,可支撑384卡乃至950卡超节点的线性加速,实现大规模芯片的高效协同。

同时,在超节点网络架构设计上,昇腾采用“Scale Up + Scale Out”双层异构网络方案。

在Scale Up域,核心超节点内部采用自研UB-CTP高速互联总线,支持1至2层交换架构,可实现从256卡到最高8192卡的线性扩展。单节点内NPU间通信带宽达3.2Tbps,且全程无收敛,保障任意芯片间通信均能跑满设计带宽,解决了大规模集群的跨节点通信问题。

在Scale Out域,超节点间通过2层以太网架构互联,采用400G/800Gbps高速链路,实现跨节点的广域覆盖。同时,通过灵犀UB直连技术,NPU可直接访问CPU、存储等外部资源,无需CPU中转,降低了数据交互时延。

据悉,目前昇腾384超节点已部署超500套,在互联网、金融、能源、教育等行业实现批量落地。

(记者党博文)5月22日,昇腾AI开发者峰会在北京召开。

【通信产业网讯】(记者 党博文)5月22日,昇腾AI开发者峰会在北京召开。华为公司Fellow、半导体首席科学家廖恒发表题为《面向Agentic AI时代的昇腾超节点最佳实践》的主题演讲,解读昇腾超节点技术如何为智能体时代的大规模算力需求提供支撑。

随着大模型从千亿稠密走向万亿稀疏,AI应用正从单模型推理向多智能体协同的Agentic AI时代演进。这一趋势对算力集群的规模、通信效率与系统可靠性提出了前所未有的挑战模型训练需要更高的算力密度,多智能体交互则要求全链路极低时延通信,传统集群架构的瓶颈日益凸显。

昇腾作为业内较早提出并实现超节点规模化商用的算力平台,其超节点技术正是为应对上述挑战设计。

廖恒在分享中表示,单卡算力从来不是决定AI性能的唯一标准,在即将到来的Agentic AI时代,其重要性还将进一步下降。华为用一个公式重新定义了AI芯片的评价体系,系统业务性能=节点规格×单颗芯片的规格。这意味着,再强的单卡,如果不能在集群中高效协同,最终的实际业务表现都会大打折扣。

在廖恒看来,一款均衡的AI芯片,需要兼顾“内存带宽、内存容量、互联带宽、AI算力”四个指标,就像木桶的四块板,任何一块存在短板,都会限制整体性能。如果把AI芯片比作一辆车,算力是发动机马力,内存带宽是高速公路的车道数,内存容量是油箱大小,互联带宽则是连接不同车辆的交通网络。

廖恒还公开了不同AI场景的资源瓶颈排序,指出不同应用场景对芯片指标的侧重不同。大模型预训练阶段,算力是首要需求;推理Prefill阶段,即AI接收用户输入的瞬间,算力和内存带宽同等重要;而推理Decode和后训练阶段,也就是日常AI聊天、写代码、多轮对话的过程,主要瓶颈已转变为内存带宽。

这是Agentic AI时代的一个重要变化。未来90%以上的算力消耗,都会集中在智能体的思考、交互和工具调用上。在这些场景中,算力资源往往存在闲置,而内存带宽成为制约性能的主要因素。

基于这一判断,廖恒重点介绍了两款定位不同的昇腾950系列芯片。昇腾950PR FP16算力425TFLOPS,内存带宽1.4~1.6TB/s,兼顾预训练和通用推理,性价比突出,适合大多数开发者;昇腾950DT则侧重推理场景优化,其FP16算力为486TFLOPS,较950PR高14%,但内存带宽达到4TB/s,是前者的2.5至2.8倍。该芯片的比较优势在于“内存带宽/美元”,可更好地满足Agentic AI多轮交互、长上下文推理的需求。

芯片互联带宽决定了超节点的扩展能力。两款芯片均配备2TB/s的高速互联带宽,可支撑384卡乃至950卡超节点的线性加速,实现大规模芯片的高效协同。

同时,在超节点网络架构设计上,昇腾采用“Scale Up + Scale Out”双层异构网络方案。

在Scale Up域,核心超节点内部采用自研UB-CTP高速互联总线,支持1至2层交换架构,可实现从256卡到最高8192卡的线性扩展。单节点内NPU间通信带宽达3.2Tbps,且全程无收敛,保障任意芯片间通信均能跑满设计带宽,解决了大规模集群的跨节点通信问题。

在Scale Out域,超节点间通过2层以太网架构互联,采用400G/800Gbps高速链路,实现跨节点的广域覆盖。同时,通过灵犀UB直连技术,NPU可直接访问CPU、存储等外部资源,无需CPU中转,降低了数据交互时延。

据悉,目前昇腾384超节点已部署超500套,在互联网、金融、能源、教育等行业实现批量落地。

展开
打开“财经头条”阅读更多精彩资讯
APP内打开