韦乐平:跨域训练提升闲散智算资源的利用率

通信产业网

11小时前

随着模型规模的日益扩大,单体的算力、电力、空间资源终将受限,可能需要在园区甚至更大范围内由多个智算中心互联形成一个超级逻辑智算资源池,进行联合训练才有可能支撑超大模型的训练。

【通信产业网讯】(记者 胡媛)当前,国内遍地开花的智算中心超280个,但GPU利用率很不均衡,饱的撑死,饿的饿死,平均不到30%。机内总线带宽与机间网络带宽不匹配,机间网络带宽太窄,算效不高。机内总线架构的开放性、兼容性和扩展性不理想。还缺乏可盈利的商业模式。

4月23日,SNAI推委会荣誉主席、原中国电信科技委主任韦乐平在“2025云网智联大会”上指出智算中心网正面临以上挑战。

1.jpg

两类联网场景

智算网是适应大模型需要的、以GPU为主体的网络,由智算中心及其互联组成(对应DCN和DCI),但关于其定义和边界业界尚无共识。而智算中心网(AIDC),作为智算网核心相对比较清晰,与传统的DCN范围相当,包括芯片间、服务器间、单体乃至园区。

韦乐平认为,智算中心的联网场景包括Scale-OUT网络(机间网络)和Scale-UP网络(机内网络)。

其中,Scale-OUT网络用于机间构建超大规模GPU集群(例万卡集群),适用节点间的数据并行DP(高带宽)和流水线并行PP(中带宽),需支持百G级互联带宽、微纳秒时延、万卡级大规模组网,目前基于IB/R0CE的RDMA交换网络主导。

Scale-UP网络用于机内小规模GPU卡间的高速互联,构建超级GPU节点。适用于张量并行TP等场景,带宽是Scale-0UT的10倍以上,需要支持T级互联带宽、百纳秒级时延、百卡级及以下的小规模互联,需要更加高效的联网技术(PCIe等)互联CPU、内存、GPU、网卡等组件,随着大模型业务的爆发,此类总线的带宽和性能已经难以支撑GPU互联的性能要求。

六大联网技术趋势

韦乐平指出,生成式人工智能的联网技术趋势包括IB、以太网、芯片光互连、PCIe、CXL、OCS等六方面。

第一,IB(InfiniBand),是一种用于高性能计算的计算机网络,具备高带宽、高扩展、高可靠性、无阻塞、超低时延(1μs)的特点。但需要采用专用硬件IB交换机和IB网卡,成本较高,扩展性受限。此外,产业生态较弱,过于封闭,由英伟达独家控制。IB最适用高性能计算和高质量大模型训练场景。

第二,以太网,是世界上规模最大的低成本联网技术,但是,其传统形态和协议已经不能满足大集群联网的苛刻性能需求。可从ROCE(一种基于以太网的RDMA)、无损以太网、超级以太网联盟(UEC)三个方向改进。以太网性价比全面赶超IB,预计2026年会起量。

第三,芯片光互连,其原理利用CMOS工艺,将光波导、耦合器和谐振器直接刻蚀在硅基上,再利用先进的封装技术将分立的具有特定功能的芯片组(各种XPU)集成进来,构成一个实用化的,结合SiP和Chiplet技术的光互连器。芯片光互连具有改进了计算集群的扩展性(超100T)和带宽(扩大5-10倍)、极低功耗、降低时延(可达10倍)、能效(4-8倍)和物理尺寸等优势。同时,芯片光互连也存在技术还不成熟、标准缺失等挑战,预计最快2026年就有产品。

第四,PCIe,是一种计算机串行扩展总线技术。自从1992年以来,PCe一直用于高速、低时延、高带宽场景,例如,数据中心内的非易失内存快线(MVMe)和GPU与CPU的互连等场景。当前应用最广的是PCIe5.0,2022年发布PCIe6.0,2025年计划发布PCIe7.0版本,期望进一步提升至128GT/S能力。

第五,CXL,计算机快速链路CXL(Compute Express Link)是一种架构在PCle串行总线上的新接口协议和高速互连技术。CXL允许计算机系统内不同组件间进行快速、可靠的数据传输。CXL打破了CPU与内存间的捆绑关系,能够在维系CPU内存空间和设备内存一致性的前提下,实现更加灵活和高容量的内存池化架构。长期看,CXL将导致现有服务器架构的解构,将处理、内存和I/O分别纳入不同物理模块,使能资源的查询和共享,适应大集群的训练需要和高性能计算的需要。

第六,OCS,光纤交换(OCS)是一种以光纤通道为交换颗粒的大容量交换。光纤交换与速率无关、去掉了大量高速光模块、拓扑更灵活、切换时间缩短至10毫秒级,谷歌的OCS号称带宽提高5倍,电力消耗下降41%,成本降30%。OCS近中期主要替代AIDC中的Spine层的电交换机,长期会进一步向外扩展。

2.jpg

跨域训练是必然趋势

面对大批分散部署、利用率很低的小规模智算中心,若能通过网络互联形成一个大型的逻辑智算池来适应规模日益增长的大模型训练,有望大幅提升闲散智算资源的利用率。

在韦乐平看来,迈向未来,大模型训练智算拉远的市场中,跨域训练是必然趋势。按照统计,大模型参数每1-2年增长10倍,而对应的GPU芯片的算力仅增长2-4倍,远低于模型规模的增速。随着模型规模的日益扩大,单体的算力、电力、空间资源终将受限,可能需要在园区甚至更大范围内由多个智算中心互联形成一个超级逻辑智算资源池,进行联合训练才有可能支撑超大模型的训练。至于推理与具体业务场景和访问量相关,更需要跨域实施。

与此同时,韦乐平认为,大模型训练智算拉远面临三大挑战。

首先,复杂的商用场景。面临大量不同功能、性能的异构GPU、规模不同的AIDC的互联、不同业务场景、不同设备和不同组网方式、不同模型和不同参数的协同挑战。

其次,技术挑战。一方面,带宽收敛问题。无收敛带宽普适性和前瞻性好,部署快,但成本太高;收敛比4-8时,带宽成本可以降至10%之内,但是只适用特定业务场景下的特定模型拆分方式,缺乏普适性和前瞻性;另一方面,功能和性能问题。拉远后必然面对丢包、抖动乃至中断故障等诸多挑战,对ROCE网络的功能和性能有不少严格的要求。

最后,统一管理和运维的挑战。现有固化的组织架构和生产流程不适合快速部署逻辑统一的异地智算中心,需要对现有管理运维体系、生产流程、监控管理平台改造升级。

随着模型规模的日益扩大,单体的算力、电力、空间资源终将受限,可能需要在园区甚至更大范围内由多个智算中心互联形成一个超级逻辑智算资源池,进行联合训练才有可能支撑超大模型的训练。

【通信产业网讯】(记者 胡媛)当前,国内遍地开花的智算中心超280个,但GPU利用率很不均衡,饱的撑死,饿的饿死,平均不到30%。机内总线带宽与机间网络带宽不匹配,机间网络带宽太窄,算效不高。机内总线架构的开放性、兼容性和扩展性不理想。还缺乏可盈利的商业模式。

4月23日,SNAI推委会荣誉主席、原中国电信科技委主任韦乐平在“2025云网智联大会”上指出智算中心网正面临以上挑战。

1.jpg

两类联网场景

智算网是适应大模型需要的、以GPU为主体的网络,由智算中心及其互联组成(对应DCN和DCI),但关于其定义和边界业界尚无共识。而智算中心网(AIDC),作为智算网核心相对比较清晰,与传统的DCN范围相当,包括芯片间、服务器间、单体乃至园区。

韦乐平认为,智算中心的联网场景包括Scale-OUT网络(机间网络)和Scale-UP网络(机内网络)。

其中,Scale-OUT网络用于机间构建超大规模GPU集群(例万卡集群),适用节点间的数据并行DP(高带宽)和流水线并行PP(中带宽),需支持百G级互联带宽、微纳秒时延、万卡级大规模组网,目前基于IB/R0CE的RDMA交换网络主导。

Scale-UP网络用于机内小规模GPU卡间的高速互联,构建超级GPU节点。适用于张量并行TP等场景,带宽是Scale-0UT的10倍以上,需要支持T级互联带宽、百纳秒级时延、百卡级及以下的小规模互联,需要更加高效的联网技术(PCIe等)互联CPU、内存、GPU、网卡等组件,随着大模型业务的爆发,此类总线的带宽和性能已经难以支撑GPU互联的性能要求。

六大联网技术趋势

韦乐平指出,生成式人工智能的联网技术趋势包括IB、以太网、芯片光互连、PCIe、CXL、OCS等六方面。

第一,IB(InfiniBand),是一种用于高性能计算的计算机网络,具备高带宽、高扩展、高可靠性、无阻塞、超低时延(1μs)的特点。但需要采用专用硬件IB交换机和IB网卡,成本较高,扩展性受限。此外,产业生态较弱,过于封闭,由英伟达独家控制。IB最适用高性能计算和高质量大模型训练场景。

第二,以太网,是世界上规模最大的低成本联网技术,但是,其传统形态和协议已经不能满足大集群联网的苛刻性能需求。可从ROCE(一种基于以太网的RDMA)、无损以太网、超级以太网联盟(UEC)三个方向改进。以太网性价比全面赶超IB,预计2026年会起量。

第三,芯片光互连,其原理利用CMOS工艺,将光波导、耦合器和谐振器直接刻蚀在硅基上,再利用先进的封装技术将分立的具有特定功能的芯片组(各种XPU)集成进来,构成一个实用化的,结合SiP和Chiplet技术的光互连器。芯片光互连具有改进了计算集群的扩展性(超100T)和带宽(扩大5-10倍)、极低功耗、降低时延(可达10倍)、能效(4-8倍)和物理尺寸等优势。同时,芯片光互连也存在技术还不成熟、标准缺失等挑战,预计最快2026年就有产品。

第四,PCIe,是一种计算机串行扩展总线技术。自从1992年以来,PCe一直用于高速、低时延、高带宽场景,例如,数据中心内的非易失内存快线(MVMe)和GPU与CPU的互连等场景。当前应用最广的是PCIe5.0,2022年发布PCIe6.0,2025年计划发布PCIe7.0版本,期望进一步提升至128GT/S能力。

第五,CXL,计算机快速链路CXL(Compute Express Link)是一种架构在PCle串行总线上的新接口协议和高速互连技术。CXL允许计算机系统内不同组件间进行快速、可靠的数据传输。CXL打破了CPU与内存间的捆绑关系,能够在维系CPU内存空间和设备内存一致性的前提下,实现更加灵活和高容量的内存池化架构。长期看,CXL将导致现有服务器架构的解构,将处理、内存和I/O分别纳入不同物理模块,使能资源的查询和共享,适应大集群的训练需要和高性能计算的需要。

第六,OCS,光纤交换(OCS)是一种以光纤通道为交换颗粒的大容量交换。光纤交换与速率无关、去掉了大量高速光模块、拓扑更灵活、切换时间缩短至10毫秒级,谷歌的OCS号称带宽提高5倍,电力消耗下降41%,成本降30%。OCS近中期主要替代AIDC中的Spine层的电交换机,长期会进一步向外扩展。

2.jpg

跨域训练是必然趋势

面对大批分散部署、利用率很低的小规模智算中心,若能通过网络互联形成一个大型的逻辑智算池来适应规模日益增长的大模型训练,有望大幅提升闲散智算资源的利用率。

在韦乐平看来,迈向未来,大模型训练智算拉远的市场中,跨域训练是必然趋势。按照统计,大模型参数每1-2年增长10倍,而对应的GPU芯片的算力仅增长2-4倍,远低于模型规模的增速。随着模型规模的日益扩大,单体的算力、电力、空间资源终将受限,可能需要在园区甚至更大范围内由多个智算中心互联形成一个超级逻辑智算资源池,进行联合训练才有可能支撑超大模型的训练。至于推理与具体业务场景和访问量相关,更需要跨域实施。

与此同时,韦乐平认为,大模型训练智算拉远面临三大挑战。

首先,复杂的商用场景。面临大量不同功能、性能的异构GPU、规模不同的AIDC的互联、不同业务场景、不同设备和不同组网方式、不同模型和不同参数的协同挑战。

其次,技术挑战。一方面,带宽收敛问题。无收敛带宽普适性和前瞻性好,部署快,但成本太高;收敛比4-8时,带宽成本可以降至10%之内,但是只适用特定业务场景下的特定模型拆分方式,缺乏普适性和前瞻性;另一方面,功能和性能问题。拉远后必然面对丢包、抖动乃至中断故障等诸多挑战,对ROCE网络的功能和性能有不少严格的要求。

最后,统一管理和运维的挑战。现有固化的组织架构和生产流程不适合快速部署逻辑统一的异地智算中心,需要对现有管理运维体系、生产流程、监控管理平台改造升级。

展开
打开“财经头条”阅读更多精彩资讯
APP内打开