芝能智芯出品
计算芯片功率密度的不断提升,热管理正成为制约系统性能提升和稳定运行的关键瓶颈。从早期依赖散热片和风扇的二维结构,到如今在三维集成、异构封装、人工智能辅助调度、材料工程等层面展开全面创新,冷却技术的边界不断被突破。
在2025年DAC大会上,多位专家围绕“未来计算的冷却策略”展开讨论,展示了从电路设计、系统架构、材料工程到液冷/微流体等手段如何协同应对芯片级、封装级、系统级的热挑战。
Part 1
热密度提升下
的冷却挑战与电路级响应
过去十年间,AI、高性能计算等负载推动芯片设计向极致的性能靠拢,芯片上的功率密度从2010年的50ndash;100 W/cmsup2;迅速提升至2020年的200 W/cmsup2;,个别芯片的热设计功率(TDP)更是超过1000瓦。
例如NVIDIA从Pascal架构发展至Blackwell,单芯片算力跃升1000倍,TDP也由106W增长至1200W。
如此高密度功耗不再允许传统风冷或散热器单独承担散热任务,冷却策略必须前置到设计阶段,从器件层、布局布线、热敏感元件摆放、甚至PDN(电源分配网络)布局上加以优化。
温度感知设计成为EDA工具演进的关键方向之一。
◎例如布局布线工具内建温度aware模型,避免高功耗模块集中布局;
◎PDN优化技术则通过动态电流分布建模,防止某些局部区域电流过载导致热点过热;
◎而在先进封装中,采用2.5D小芯片(chiplet)结构将高热元件分散在硅中介层上,通过TSV(硅通孔)引出局部冷却路径,也成为设计热点。
针对3D封装结构中的垂直热障问题,研究者也提出引入金刚石、碳化硅等高热导材料作为堆叠中介,配合上下多层铜散热器,以及横向铺设纳米铜网,以辅助热扩散与纵向传导。
上述技术手段虽然主要作用于芯片设计阶段,但其核心逻辑已不再是“如何散热”,而是“如何设计更容易散热的芯片”,这也标志着冷却已成为设计约束条件的一部分,逐步从后端工程被前移至前端EDA流程。
芯片热设计已突破 1000W,电路级需引入温度感知设计工具,同时通过芯粒、小芯片结构实现热源分离以平衡热负载,高热导材料(如金刚石、碳化硅)被用于垂直封装结构的热通道,且冷却设计已内化为 EDA 系统设计的一部分,需与布局规划、功耗分析协同进行。
Part 2
系统级协同、材料创新
与微流体冷却路径
在芯片本体优化之外,系统级的冷却策略也迎来重大演进。
NVIDIA数据中心通过Blackwell GPU采用液冷系统,将PUE(电源使用效率)从传统风冷的1.5ndash;2.0下降到1.15ndash;1.2,理论上实现了双倍能效。这一改变不仅体现在冷却介质的更替,还在于热设计与服务器调度、芯片功率管理之间的联动。
大型数据中心正借助AI模型对任务负载进行温度预测调度,将高热工作负载在时间与空间维度上均衡分配,辅以芯片功耗模型做动态频率调整,形成热功协同调度机制。
这一机制反过来也影响芯片架构的设计,如内存与计算单元交错布局、异构核心冷热分配等。
而在材料与结构层面,最具代表性的方向是“硅微通道冷板”(silicon microchannel cold plate)。这类结构通过在芯片背面引入纳米尺度的冷却通道,允许冷却液直接贴近发热区域,实现高效换热。
EPFL的研究显示,在高热通量场景下,微通道技术可实现远高于风冷与传统液冷的散热能力,尤其适用于3D-IC和量子计算等对温度敏感极高的场景。
斯坦福大学的研究团队则提出了一种以金刚石为热电介质的三维热支架(3D thermal scaffold),构建在晶体管下方的金刚石框架能以纳米尺度迅速分散热量。这种技术目前仍处于实验室阶段,但展示出未来在3D芯片中实现“横向+纵向”双向热疏导的可能。
系统级冷却技术还涉及到冷却介质选择(如液氮降温的低温CMOS)、建筑设计(震区钢制减震结构防护)、电源堆叠(Voltage Stacking)等多个维度,逐步形成从芯片、封装到数据中心基础设施的整体热管理策略。
液冷系统已在 AI 数据中心大规模部署,PUE 降至 1.15,微流体技术实现芯片内部直接散热且适用于 3D 封装与 HPC,金刚石热支架展现了纳米级热散路径的新可能,AI 辅助调度推动系统与芯片设计协同应对热挑战,同时热设计已深入建筑基础结构层面,兼顾抗震与散热需求。
小结
当芯片性能提升已不再主要受限于逻辑计算,而越来越受限于热,这场从设计、封装、系统到材料的多层次冷却革新就显得格外关键。以液冷、微通道、金刚石材料为代表的新兴路径不再局限于某一领域技术突破,而是构建起一个多层协同的冷却生态。
在这一生态中,EDA工具、系统架构、调度算法和数据中心设计紧密协作,构成下一代计算平台的“热管理底座”。
原文标题 : 计算芯片冷却技术转向系统协同!
芝能智芯出品
计算芯片功率密度的不断提升,热管理正成为制约系统性能提升和稳定运行的关键瓶颈。从早期依赖散热片和风扇的二维结构,到如今在三维集成、异构封装、人工智能辅助调度、材料工程等层面展开全面创新,冷却技术的边界不断被突破。
在2025年DAC大会上,多位专家围绕“未来计算的冷却策略”展开讨论,展示了从电路设计、系统架构、材料工程到液冷/微流体等手段如何协同应对芯片级、封装级、系统级的热挑战。
Part 1
热密度提升下
的冷却挑战与电路级响应
过去十年间,AI、高性能计算等负载推动芯片设计向极致的性能靠拢,芯片上的功率密度从2010年的50ndash;100 W/cmsup2;迅速提升至2020年的200 W/cmsup2;,个别芯片的热设计功率(TDP)更是超过1000瓦。
例如NVIDIA从Pascal架构发展至Blackwell,单芯片算力跃升1000倍,TDP也由106W增长至1200W。
如此高密度功耗不再允许传统风冷或散热器单独承担散热任务,冷却策略必须前置到设计阶段,从器件层、布局布线、热敏感元件摆放、甚至PDN(电源分配网络)布局上加以优化。
温度感知设计成为EDA工具演进的关键方向之一。
◎例如布局布线工具内建温度aware模型,避免高功耗模块集中布局;
◎PDN优化技术则通过动态电流分布建模,防止某些局部区域电流过载导致热点过热;
◎而在先进封装中,采用2.5D小芯片(chiplet)结构将高热元件分散在硅中介层上,通过TSV(硅通孔)引出局部冷却路径,也成为设计热点。
针对3D封装结构中的垂直热障问题,研究者也提出引入金刚石、碳化硅等高热导材料作为堆叠中介,配合上下多层铜散热器,以及横向铺设纳米铜网,以辅助热扩散与纵向传导。
上述技术手段虽然主要作用于芯片设计阶段,但其核心逻辑已不再是“如何散热”,而是“如何设计更容易散热的芯片”,这也标志着冷却已成为设计约束条件的一部分,逐步从后端工程被前移至前端EDA流程。
芯片热设计已突破 1000W,电路级需引入温度感知设计工具,同时通过芯粒、小芯片结构实现热源分离以平衡热负载,高热导材料(如金刚石、碳化硅)被用于垂直封装结构的热通道,且冷却设计已内化为 EDA 系统设计的一部分,需与布局规划、功耗分析协同进行。
Part 2
系统级协同、材料创新
与微流体冷却路径
在芯片本体优化之外,系统级的冷却策略也迎来重大演进。
NVIDIA数据中心通过Blackwell GPU采用液冷系统,将PUE(电源使用效率)从传统风冷的1.5ndash;2.0下降到1.15ndash;1.2,理论上实现了双倍能效。这一改变不仅体现在冷却介质的更替,还在于热设计与服务器调度、芯片功率管理之间的联动。
大型数据中心正借助AI模型对任务负载进行温度预测调度,将高热工作负载在时间与空间维度上均衡分配,辅以芯片功耗模型做动态频率调整,形成热功协同调度机制。
这一机制反过来也影响芯片架构的设计,如内存与计算单元交错布局、异构核心冷热分配等。
而在材料与结构层面,最具代表性的方向是“硅微通道冷板”(silicon microchannel cold plate)。这类结构通过在芯片背面引入纳米尺度的冷却通道,允许冷却液直接贴近发热区域,实现高效换热。
EPFL的研究显示,在高热通量场景下,微通道技术可实现远高于风冷与传统液冷的散热能力,尤其适用于3D-IC和量子计算等对温度敏感极高的场景。
斯坦福大学的研究团队则提出了一种以金刚石为热电介质的三维热支架(3D thermal scaffold),构建在晶体管下方的金刚石框架能以纳米尺度迅速分散热量。这种技术目前仍处于实验室阶段,但展示出未来在3D芯片中实现“横向+纵向”双向热疏导的可能。
系统级冷却技术还涉及到冷却介质选择(如液氮降温的低温CMOS)、建筑设计(震区钢制减震结构防护)、电源堆叠(Voltage Stacking)等多个维度,逐步形成从芯片、封装到数据中心基础设施的整体热管理策略。
液冷系统已在 AI 数据中心大规模部署,PUE 降至 1.15,微流体技术实现芯片内部直接散热且适用于 3D 封装与 HPC,金刚石热支架展现了纳米级热散路径的新可能,AI 辅助调度推动系统与芯片设计协同应对热挑战,同时热设计已深入建筑基础结构层面,兼顾抗震与散热需求。
小结
当芯片性能提升已不再主要受限于逻辑计算,而越来越受限于热,这场从设计、封装、系统到材料的多层次冷却革新就显得格外关键。以液冷、微通道、金刚石材料为代表的新兴路径不再局限于某一领域技术突破,而是构建起一个多层协同的冷却生态。
在这一生态中,EDA工具、系统架构、调度算法和数据中心设计紧密协作,构成下一代计算平台的“热管理底座”。
原文标题 : 计算芯片冷却技术转向系统协同!