芝能智芯出品
在2025年光通信大会(OFC)上,业界领袖们一致认为,光子技术正成为数据中心AI算力集群互连的核心驱动力。随着大规模语言模型(LLM)对算力和带宽提出前所未有的需求,传统电互连已经难以承载未来AI集群的规模化扩张。
我们从光子组件市场格局、AI驱动下的互连需求演变入手,深入解析“Scale-Out”与“Scale-Up”两种网络架构下光互连的应用与挑战,并重点剖析共封装光学(CPO)技术如何在功耗、带宽和可靠性三方面实现突破。
展望未来,在AI数据中心运营商与芯片巨头的共推下,光子技术正加速由“可选”走向“必需”,并将彻底重塑数据中心的互连格局。
Part 1
数据中心AI互连需求的爆发式增长
光子组件市场:从电信向数据通信的结构性转移
2024年,全球光学组件市场规模预计约为170亿美元,长期以来电信应用一直占据主导地位。然而,随着人工智能数据中心对高带宽、低延迟互连的需求迅速上升,光子组件市场正发生结构性转变:数据通信(Datacom)应用的占比已超过60%。
这一趋势不仅反映出应用重心的迁移,也预示未来技术发展的关键方向将围绕AI计算基础设施展开。
J.P. Morgan 的市场调研显示,目前主要光子组件供应商中,Coherent 与 Innolight 各占据约 20% 的市场份额,Broadcom 约为 10%。其余市场份额由多个创新型企业共同分担,包括 Ayar Labs 和 Celestial AI 等具备技术突破潜力的公司。
大规模语言模型驱动的AI集群扩张对互连提出新要求
在大规模语言模型(LLM)驱动下,AI计算集群规模呈指数级增长。据 Dell’Oro Group 数据,LLM参数规模已从数十亿级迅速扩展至数千亿级,带动AI集群从数百GPU规模扩展至数万甚至十几万GPU级别。
这种扩张不仅增加了算力本身的部署规模,更显著提升了对高带宽、低延迟互连的需求。
在算力增长的同时,互连带宽需求增长更为迅猛。通常情况下,XPU(包括GPU及定制AI加速器)数量翻倍,其对应的互连带宽需求需要提升约2.5至3倍。
J.P. Morgan 预测,到2030年,网络设备在数据中心资本支出(CapEx)中的占比将由当前的5%~10%提升至15%~20%,进一步突显了互连技术在AI基础设施中的战略地位。
光子互连技术演进:从可插拔模块向协封装光子
当前AI集群中规模扩展网络已全面采用光子互连技术,尤其在跨机架与跨行连接中更为普遍。
数据中心通常使用可插拔光收发器(Pluggable Optical Transceivers)连接网络接口卡(NIC)与交换机,传输距离可达几十米,随着LLM规模扩大,传统光模块在功耗和热管理方面的局限日益显现。
Part 2
Scale-Out 与 Scale-Up:
两大光互连架构的技术演进
Scale-Out 网络已成为光子技术的成熟战场,光学可插拔收发器(如QSFP-DD、OSFP)广泛应用于串联交换机与机柜间的连接,覆盖数十米距离。
然而,随着400G、800G及1.6T链路的逐步商用化,功耗和总拥有成本(TCO)成为限制其发展的主要瓶颈。
为解决这一问题,共封装光学(CPO)技术应运而生,并在近期取得突破性进展。例如,NVIDIA在GTC25上发布的Spectrum-X光子交换机采用CPO技术,成功将1.6Tbps链路的功耗从30W降至9W,实现了约3.5倍的功耗节省。
这种功耗的降低不仅提升了能效,还使得GPU密度显著提高:在相同的机架功率预算下,GPU数量可增加2到3倍。
CPO技术仍面临可靠性与良率方面的挑战。由于AI数据中心规模庞大,达到智能手机量级,这意味着100万条链路可能每天都会出现数十次链路失效。CPO需要满足极低的失效率要求(如0.001%/天水平),并通过大规模测试验证其可行性。
在Scale-Up网络领域,铜缆互连目前占据主导地位,NVLink72/576等全铜线缆被用于GPU板内及板间互连,提供高带宽的同时依赖精密PCB和背板设计以确保信号完整性。
但随着信号速率逼近数十GHz,铜缆长度受限以及线缆交叉等问题逐渐显现,成为设计上的重大难题。
在此背景下,CPO技术在Scale-Up网络中展现出巨大的潜力,但也面临诸多难点。
微软提出了未来AI加速器对CPO统一物理层接口的需求,这要求在同一封装中实现高带宽、低延迟和多协议支持。
NVIDIA和TSMC等产业链伙伴正在协同制定相关CPO标准,预计该技术最早将在单GPU域的机架内互连中率先部署,并逐步向板内和板间延伸。
此外,制程厂也在为CPO发展做好准备,例如TSMC已在最新制程技术路线中预留了CPO工艺节点,为未来CPO封装提供半导体级的支持。
可以预见,在3nm及更先进的节点上,AI芯片与光子模块的一体化封装将成为现实,推动整个行业迈向新的高度。
小结
光子技术在数据中心AI领域的快速渗透,标志着“算力+互连”双轮驱动正在重塑整条产业链。
Scale-Out网络借助CPO技术实现功耗与密度的飞跃,推动超大规模AI集群的现实化;Scale-Up网络也在朝着“铜电转光子”的方向演进,为实现真正的人机融合计算提供基础支撑。
未来十年,随着CPO成本的进一步下降、接口标准的加速统一,以及良率与可靠性问题的逐步攻克,光子互连将从“可选架构”转向“数据中心基础设施的标配”,从云端到边缘、从盘内到跨机柜,数据中心的每一条连接都将依赖光子技术,全面释放AI算力的能效与规模潜能。
原文标题 : 光子技术催化数据中心AI升级:从光纤连接到共封装光学
芝能智芯出品
在2025年光通信大会(OFC)上,业界领袖们一致认为,光子技术正成为数据中心AI算力集群互连的核心驱动力。随着大规模语言模型(LLM)对算力和带宽提出前所未有的需求,传统电互连已经难以承载未来AI集群的规模化扩张。
我们从光子组件市场格局、AI驱动下的互连需求演变入手,深入解析“Scale-Out”与“Scale-Up”两种网络架构下光互连的应用与挑战,并重点剖析共封装光学(CPO)技术如何在功耗、带宽和可靠性三方面实现突破。
展望未来,在AI数据中心运营商与芯片巨头的共推下,光子技术正加速由“可选”走向“必需”,并将彻底重塑数据中心的互连格局。
Part 1
数据中心AI互连需求的爆发式增长
光子组件市场:从电信向数据通信的结构性转移
2024年,全球光学组件市场规模预计约为170亿美元,长期以来电信应用一直占据主导地位。然而,随着人工智能数据中心对高带宽、低延迟互连的需求迅速上升,光子组件市场正发生结构性转变:数据通信(Datacom)应用的占比已超过60%。
这一趋势不仅反映出应用重心的迁移,也预示未来技术发展的关键方向将围绕AI计算基础设施展开。
J.P. Morgan 的市场调研显示,目前主要光子组件供应商中,Coherent 与 Innolight 各占据约 20% 的市场份额,Broadcom 约为 10%。其余市场份额由多个创新型企业共同分担,包括 Ayar Labs 和 Celestial AI 等具备技术突破潜力的公司。
大规模语言模型驱动的AI集群扩张对互连提出新要求
在大规模语言模型(LLM)驱动下,AI计算集群规模呈指数级增长。据 Dell’Oro Group 数据,LLM参数规模已从数十亿级迅速扩展至数千亿级,带动AI集群从数百GPU规模扩展至数万甚至十几万GPU级别。
这种扩张不仅增加了算力本身的部署规模,更显著提升了对高带宽、低延迟互连的需求。
在算力增长的同时,互连带宽需求增长更为迅猛。通常情况下,XPU(包括GPU及定制AI加速器)数量翻倍,其对应的互连带宽需求需要提升约2.5至3倍。
J.P. Morgan 预测,到2030年,网络设备在数据中心资本支出(CapEx)中的占比将由当前的5%~10%提升至15%~20%,进一步突显了互连技术在AI基础设施中的战略地位。
光子互连技术演进:从可插拔模块向协封装光子
当前AI集群中规模扩展网络已全面采用光子互连技术,尤其在跨机架与跨行连接中更为普遍。
数据中心通常使用可插拔光收发器(Pluggable Optical Transceivers)连接网络接口卡(NIC)与交换机,传输距离可达几十米,随着LLM规模扩大,传统光模块在功耗和热管理方面的局限日益显现。
Part 2
Scale-Out 与 Scale-Up:
两大光互连架构的技术演进
Scale-Out 网络已成为光子技术的成熟战场,光学可插拔收发器(如QSFP-DD、OSFP)广泛应用于串联交换机与机柜间的连接,覆盖数十米距离。
然而,随着400G、800G及1.6T链路的逐步商用化,功耗和总拥有成本(TCO)成为限制其发展的主要瓶颈。
为解决这一问题,共封装光学(CPO)技术应运而生,并在近期取得突破性进展。例如,NVIDIA在GTC25上发布的Spectrum-X光子交换机采用CPO技术,成功将1.6Tbps链路的功耗从30W降至9W,实现了约3.5倍的功耗节省。
这种功耗的降低不仅提升了能效,还使得GPU密度显著提高:在相同的机架功率预算下,GPU数量可增加2到3倍。
CPO技术仍面临可靠性与良率方面的挑战。由于AI数据中心规模庞大,达到智能手机量级,这意味着100万条链路可能每天都会出现数十次链路失效。CPO需要满足极低的失效率要求(如0.001%/天水平),并通过大规模测试验证其可行性。
在Scale-Up网络领域,铜缆互连目前占据主导地位,NVLink72/576等全铜线缆被用于GPU板内及板间互连,提供高带宽的同时依赖精密PCB和背板设计以确保信号完整性。
但随着信号速率逼近数十GHz,铜缆长度受限以及线缆交叉等问题逐渐显现,成为设计上的重大难题。
在此背景下,CPO技术在Scale-Up网络中展现出巨大的潜力,但也面临诸多难点。
微软提出了未来AI加速器对CPO统一物理层接口的需求,这要求在同一封装中实现高带宽、低延迟和多协议支持。
NVIDIA和TSMC等产业链伙伴正在协同制定相关CPO标准,预计该技术最早将在单GPU域的机架内互连中率先部署,并逐步向板内和板间延伸。
此外,制程厂也在为CPO发展做好准备,例如TSMC已在最新制程技术路线中预留了CPO工艺节点,为未来CPO封装提供半导体级的支持。
可以预见,在3nm及更先进的节点上,AI芯片与光子模块的一体化封装将成为现实,推动整个行业迈向新的高度。
小结
光子技术在数据中心AI领域的快速渗透,标志着“算力+互连”双轮驱动正在重塑整条产业链。
Scale-Out网络借助CPO技术实现功耗与密度的飞跃,推动超大规模AI集群的现实化;Scale-Up网络也在朝着“铜电转光子”的方向演进,为实现真正的人机融合计算提供基础支撑。
未来十年,随着CPO成本的进一步下降、接口标准的加速统一,以及良率与可靠性问题的逐步攻克,光子互连将从“可选架构”转向“数据中心基础设施的标配”,从云端到边缘、从盘内到跨机柜,数据中心的每一条连接都将依赖光子技术,全面释放AI算力的能效与规模潜能。
原文标题 : 光子技术催化数据中心AI升级:从光纤连接到共封装光学