光子技术催化数据中心AI升级:从光纤连接到共封装光学

智车科技

1天前

Scale-Out网络已成为光子技术的成熟战场,光学可插拔收发器(如QSFP-DD、OSFP)广泛应用于串联交换机与机柜间的连接,覆盖数十米距离。...原文标题:光子技术催化数据中心AI升级:从光纤连接到共封装光学。

芝能智芯出品

在2025年光通信大会(OFC)上,业界领袖们一致认为,光子技术正成为数据中心AI算力集群互连的核心驱动力。随着大规模语言模型(LLM)对算力和带宽提出前所未有的需求,传统电互连已经难以承载未来AI集群的规模化扩张。

我们从光子组件市场格局、AI驱动下的互连需求演变入手,深入解析“Scale-Out”与“Scale-Up”两种网络架构下光互连的应用与挑战,并重点剖析共封装光学(CPO)技术如何在功耗、带宽和可靠性三方面实现突破。

展望未来,在AI数据中心运营商与芯片巨头的共推下,光子技术正加速由“可选”走向“必需”,并将彻底重塑数据中心的互连格局。

Part 1

数据中心AI互连需求的爆发式增长

光子组件市场:从电信向数据通信的结构性转移

2024年,全球光学组件市场规模预计约为170亿美元,长期以来电信应用一直占据主导地位。然而,随着人工智能数据中心对高带宽、低延迟互连的需求迅速上升,光子组件市场正发生结构性转变:数据通信(Datacom)应用的占比已超过60%。

这一趋势不仅反映出应用重心的迁移,也预示未来技术发展的关键方向将围绕AI计算基础设施展开。

J.P. Morgan 的市场调研显示,目前主要光子组件供应商中,Coherent 与 Innolight 各占据约 20% 的市场份额,Broadcom 约为 10%。其余市场份额由多个创新型企业共同分担,包括 Ayar Labs 和 Celestial AI 等具备技术突破潜力的公司。

大规模语言模型驱动的AI集群扩张对互连提出新要求

在大规模语言模型(LLM)驱动下,AI计算集群规模呈指数级增长。据 Dell’Oro Group 数据,LLM参数规模已从数十亿级迅速扩展至数千亿级,带动AI集群从数百GPU规模扩展至数万甚至十几万GPU级别。

这种扩张不仅增加了算力本身的部署规模,更显著提升了对高带宽、低延迟互连的需求。

在算力增长的同时,互连带宽需求增长更为迅猛。通常情况下,XPU(包括GPU及定制AI加速器)数量翻倍,其对应的互连带宽需求需要提升约2.5至3倍。

J.P. Morgan 预测,到2030年,网络设备在数据中心资本支出(CapEx)中的占比将由当前的5%~10%提升至15%~20%,进一步突显了互连技术在AI基础设施中的战略地位。

光子互连技术演进:从可插拔模块向协封装光子

当前AI集群中规模扩展网络已全面采用光子互连技术,尤其在跨机架与跨行连接中更为普遍。

数据中心通常使用可插拔光收发器(Pluggable Optical Transceivers)连接网络接口卡(NIC)与交换机,传输距离可达几十米,随着LLM规模扩大,传统光模块在功耗和热管理方面的局限日益显现。

Part 2

Scale-Out 与 Scale-Up:

两大光互连架构的技术演进

Scale-Out 网络已成为光子技术的成熟战场,光学可插拔收发器(如QSFP-DD、OSFP)广泛应用于串联交换机与机柜间的连接,覆盖数十米距离。

然而,随着400G、800G及1.6T链路的逐步商用化,功耗和总拥有成本(TCO)成为限制其发展的主要瓶颈。

为解决这一问题,共封装光学(CPO)技术应运而生,并在近期取得突破性进展。例如,NVIDIA在GTC25上发布的Spectrum-X光子交换机采用CPO技术,成功将1.6Tbps链路的功耗从30W降至9W,实现了约3.5倍的功耗节省。

这种功耗的降低不仅提升了能效,还使得GPU密度显著提高:在相同的机架功率预算下,GPU数量可增加2到3倍。

CPO技术仍面临可靠性与良率方面的挑战。由于AI数据中心规模庞大,达到智能手机量级,这意味着100万条链路可能每天都会出现数十次链路失效。CPO需要满足极低的失效率要求(如0.001%/天水平),并通过大规模测试验证其可行性。

在Scale-Up网络领域,铜缆互连目前占据主导地位,NVLink72/576等全铜线缆被用于GPU板内及板间互连,提供高带宽的同时依赖精密PCB和背板设计以确保信号完整性。

但随着信号速率逼近数十GHz,铜缆长度受限以及线缆交叉等问题逐渐显现,成为设计上的重大难题。

在此背景下,CPO技术在Scale-Up网络中展现出巨大的潜力,但也面临诸多难点。

微软提出了未来AI加速器对CPO统一物理层接口的需求,这要求在同一封装中实现高带宽、低延迟和多协议支持。

NVIDIA和TSMC等产业链伙伴正在协同制定相关CPO标准,预计该技术最早将在单GPU域的机架内互连中率先部署,并逐步向板内和板间延伸。

此外,制程厂也在为CPO发展做好准备,例如TSMC已在最新制程技术路线中预留了CPO工艺节点,为未来CPO封装提供半导体级的支持。

可以预见,在3nm及更先进的节点上,AI芯片与光子模块的一体化封装将成为现实,推动整个行业迈向新的高度。

小结

光子技术在数据中心AI领域的快速渗透,标志着“算力+互连”双轮驱动正在重塑整条产业链。

Scale-Out网络借助CPO技术实现功耗与密度的飞跃,推动超大规模AI集群的现实化;Scale-Up网络也在朝着“铜电转光子”的方向演进,为实现真正的人机融合计算提供基础支撑。

未来十年,随着CPO成本的进一步下降、接口标准的加速统一,以及良率与可靠性问题的逐步攻克,光子互连将从“可选架构”转向“数据中心基础设施的标配”,从云端到边缘、从盘内到跨机柜,数据中心的每一条连接都将依赖光子技术,全面释放AI算力的能效与规模潜能。

原文标题 : 光子技术催化数据中心AI升级:从光纤连接到共封装光学

Scale-Out网络已成为光子技术的成熟战场,光学可插拔收发器(如QSFP-DD、OSFP)广泛应用于串联交换机与机柜间的连接,覆盖数十米距离。...原文标题:光子技术催化数据中心AI升级:从光纤连接到共封装光学。

芝能智芯出品

在2025年光通信大会(OFC)上,业界领袖们一致认为,光子技术正成为数据中心AI算力集群互连的核心驱动力。随着大规模语言模型(LLM)对算力和带宽提出前所未有的需求,传统电互连已经难以承载未来AI集群的规模化扩张。

我们从光子组件市场格局、AI驱动下的互连需求演变入手,深入解析“Scale-Out”与“Scale-Up”两种网络架构下光互连的应用与挑战,并重点剖析共封装光学(CPO)技术如何在功耗、带宽和可靠性三方面实现突破。

展望未来,在AI数据中心运营商与芯片巨头的共推下,光子技术正加速由“可选”走向“必需”,并将彻底重塑数据中心的互连格局。

Part 1

数据中心AI互连需求的爆发式增长

光子组件市场:从电信向数据通信的结构性转移

2024年,全球光学组件市场规模预计约为170亿美元,长期以来电信应用一直占据主导地位。然而,随着人工智能数据中心对高带宽、低延迟互连的需求迅速上升,光子组件市场正发生结构性转变:数据通信(Datacom)应用的占比已超过60%。

这一趋势不仅反映出应用重心的迁移,也预示未来技术发展的关键方向将围绕AI计算基础设施展开。

J.P. Morgan 的市场调研显示,目前主要光子组件供应商中,Coherent 与 Innolight 各占据约 20% 的市场份额,Broadcom 约为 10%。其余市场份额由多个创新型企业共同分担,包括 Ayar Labs 和 Celestial AI 等具备技术突破潜力的公司。

大规模语言模型驱动的AI集群扩张对互连提出新要求

在大规模语言模型(LLM)驱动下,AI计算集群规模呈指数级增长。据 Dell’Oro Group 数据,LLM参数规模已从数十亿级迅速扩展至数千亿级,带动AI集群从数百GPU规模扩展至数万甚至十几万GPU级别。

这种扩张不仅增加了算力本身的部署规模,更显著提升了对高带宽、低延迟互连的需求。

在算力增长的同时,互连带宽需求增长更为迅猛。通常情况下,XPU(包括GPU及定制AI加速器)数量翻倍,其对应的互连带宽需求需要提升约2.5至3倍。

J.P. Morgan 预测,到2030年,网络设备在数据中心资本支出(CapEx)中的占比将由当前的5%~10%提升至15%~20%,进一步突显了互连技术在AI基础设施中的战略地位。

光子互连技术演进:从可插拔模块向协封装光子

当前AI集群中规模扩展网络已全面采用光子互连技术,尤其在跨机架与跨行连接中更为普遍。

数据中心通常使用可插拔光收发器(Pluggable Optical Transceivers)连接网络接口卡(NIC)与交换机,传输距离可达几十米,随着LLM规模扩大,传统光模块在功耗和热管理方面的局限日益显现。

Part 2

Scale-Out 与 Scale-Up:

两大光互连架构的技术演进

Scale-Out 网络已成为光子技术的成熟战场,光学可插拔收发器(如QSFP-DD、OSFP)广泛应用于串联交换机与机柜间的连接,覆盖数十米距离。

然而,随着400G、800G及1.6T链路的逐步商用化,功耗和总拥有成本(TCO)成为限制其发展的主要瓶颈。

为解决这一问题,共封装光学(CPO)技术应运而生,并在近期取得突破性进展。例如,NVIDIA在GTC25上发布的Spectrum-X光子交换机采用CPO技术,成功将1.6Tbps链路的功耗从30W降至9W,实现了约3.5倍的功耗节省。

这种功耗的降低不仅提升了能效,还使得GPU密度显著提高:在相同的机架功率预算下,GPU数量可增加2到3倍。

CPO技术仍面临可靠性与良率方面的挑战。由于AI数据中心规模庞大,达到智能手机量级,这意味着100万条链路可能每天都会出现数十次链路失效。CPO需要满足极低的失效率要求(如0.001%/天水平),并通过大规模测试验证其可行性。

在Scale-Up网络领域,铜缆互连目前占据主导地位,NVLink72/576等全铜线缆被用于GPU板内及板间互连,提供高带宽的同时依赖精密PCB和背板设计以确保信号完整性。

但随着信号速率逼近数十GHz,铜缆长度受限以及线缆交叉等问题逐渐显现,成为设计上的重大难题。

在此背景下,CPO技术在Scale-Up网络中展现出巨大的潜力,但也面临诸多难点。

微软提出了未来AI加速器对CPO统一物理层接口的需求,这要求在同一封装中实现高带宽、低延迟和多协议支持。

NVIDIA和TSMC等产业链伙伴正在协同制定相关CPO标准,预计该技术最早将在单GPU域的机架内互连中率先部署,并逐步向板内和板间延伸。

此外,制程厂也在为CPO发展做好准备,例如TSMC已在最新制程技术路线中预留了CPO工艺节点,为未来CPO封装提供半导体级的支持。

可以预见,在3nm及更先进的节点上,AI芯片与光子模块的一体化封装将成为现实,推动整个行业迈向新的高度。

小结

光子技术在数据中心AI领域的快速渗透,标志着“算力+互连”双轮驱动正在重塑整条产业链。

Scale-Out网络借助CPO技术实现功耗与密度的飞跃,推动超大规模AI集群的现实化;Scale-Up网络也在朝着“铜电转光子”的方向演进,为实现真正的人机融合计算提供基础支撑。

未来十年,随着CPO成本的进一步下降、接口标准的加速统一,以及良率与可靠性问题的逐步攻克,光子互连将从“可选架构”转向“数据中心基础设施的标配”,从云端到边缘、从盘内到跨机柜,数据中心的每一条连接都将依赖光子技术,全面释放AI算力的能效与规模潜能。

原文标题 : 光子技术催化数据中心AI升级:从光纤连接到共封装光学

展开
打开“财经头条”阅读更多精彩资讯
APP内打开