华为“半导体新路径探索与实践” 演讲和图片全稿

智车科技

2天前

在以Tau为中心的指导原则下,我们找到了新的路径。...以下为华为公司董事、半导体业务部总裁何庭波“半导体新路径探索与实践”演讲和图片全稿。

首先,这不是一篇专为汽车而生的文章,这是底层半导体芯片类型的文章,但是它会深深改变接下来中国智能汽车的发展,不管是座舱芯片还是智驾芯片,以及云端AI算力芯片。

看懂它或许能够理解中国芯片科技、汽车科技不同的发展道路;看懂它或许能够看懂中国智能供应链的逻辑;看懂它或许能够看懂中国科技运行的方法。或许你能找到商业、投资、职场的新启发。

这就是2026 IEEE国际电路与系统研讨会 (ISCAS 2026)上华为何庭波发表题为“半导体新路径探索与实践”的主旨演讲,也是我们看到各种轰动全球的“韬(τ)定律”与“逻辑折叠(LogicFolding)”技术,以及“时间缩微”替代“几何缩微”的半导体演进新路径。等信息新闻的源头。

当然,最重要的是阅读全文,你可以基于自己的知识面有自己独立的判断,而不是人云亦云,吃各种瓜。

以下为华为公司董事、半导体业务部总裁何庭波“半导体新路径探索与实践” 演讲和图片全稿

半导体演进的新路径:从几何缩放到时间缩放

在过去的六年里,我和我的团队在半导体领域探索了新的路径,并为可持续演进找到了一条出路。今天,基于华为的实践,我将分享我们做了什么、思考了什么,以及学到了什么。

几十年来,蓬勃发展的半导体产业将人类社会推入了信息时代。在这个奇迹背后,是一个兼具技术直观性和经济意义的法则——摩尔定律。在历史上,摩尔定律前景广阔,在保持成本效益的同时不断提升性能。每年我们都能获得更强大的设备、智能手机、个人电脑以及更先进的AI系统。但这种演进严重依赖于几何缩放,而这种缩放已经开始放缓。

FinFET架构将技术路线图又延长了十年。但在7纳米节点及以后,我们和同行遇到了严峻的挑战。几何缩放需要最先进的光刻技术,而它的到来更晚且更加困难。因此,半导体的演进绝不仅仅是几何缩放。几何缩放本身一直致力于带来时间域的收益:更快的晶体管、更短的响应时间、更高的芯片频率。

这意味着空间和时间是同一枚硬币的两面。失去几何缩放并不意味着失去时间缩放。因此,我们提出将从几何缩放向“时间缩放”(韬(τ))的转变,作为电子系统演进的新指导原则。我们认为,时间缩放可以跨越设备、电路、芯片和系统带来巨大的收益。时间缩放是系统演进一直追求的终极目标:不断提高运行频率以获得更高的性能。

在设备层面,转向时间缩放真的很难吗?

恰恰相反。设备典型的运行时间在皮秒或纳秒级别。即使没有几何尺寸的缩小,我们也可以通过前端和后端RC(电阻电容)优化来获得性能提升,因为韬(τ)本身就等于RC的乘积。例如高K金属栅极(HKMG)、应变硅等优秀技术,均成功引入到了过去的节点中。它们都可以提升设备性能。因此,从设备到电路再到芯片,演进可以完全围绕Tau展开。从皮秒到纳秒再到秒,总共跨越了12个数量级。

在电路层面,信号传播时间与互连RC寄生效应、流水线长度和电路深度息息相关。在系统层面,架构创新和系统优化占据主导地位,而这是由设备和工艺改进所赋能的。将时间作为整个电子系统的优化目标,这更加全面、一致且无缝。让我向您展示时间缩放在我们的产品中意味着什么。

移动芯片的困境与逻辑折叠的诞生

让我们从移动端开始。对于智能手机而言,一颗单芯片就构成了整个系统。因此我们必须在设备、电路和芯片层面协同工作。2020年之后,我们与合作伙伴一起付出了巨大的努力,将我们的移动芯片重新推向市场。广泛的DTCO(设计工艺协同优化)和STCO(系统工艺协同优化)工作,为我们的移动客户带来了令人满意的结果。

但按照普遍的预期,在去年发布了产品之后,我们的芯片可能已经达到了饱和状态。要保持同样的演进势头将极具挑战性。但这也是我今天站在这里发表演讲的原因。我们已经没有惊喜了吗?还是事情即将发生改变?在以Tau为中心的指导原则下,我们找到了新的路径。

今年,我们为整个行业准备了一个惊喜。在2026年的秋冬之际,我们将带来这个惊喜。不是饱和,不是简单的延续,而是向前的一大步。那么,我们是如何在饱和区内实现这一突破的呢?

当单个裸片达到其物理极限时,多裸片方案自然而然地进入了视野。我们已经广泛采用了这项技术。但裸片间的互连值得我们仔细审视。典型的互连间距已经从BGA封装的数百微米,演进到凸块的100微米左右,再到微凸块的50至25微米,以及混合键合的约10微米左右。

我们看到这种演进贯穿了HBM3到HBM5,从微凸块转向混合键合。这些技术,包括HBM、3D V-Cache以及行业内的其他技术,在韬(τ)缩放的推动下,提升了带宽并降低了延迟,它们都是非常好的技术或产品。但对于麒麟芯片而言,一颗芯片就是整个系统。仅仅这些是不够的。我们必须继续向前迈进。

那么,我们为麒麟做了什么?

回到韬(τ)缩放的路径上,我们找到了突破口。我们将其命名为“逻辑折叠”(Logical Folding)。

让我先给出一个清晰的定义。遵循时间缩放原则,逻辑折叠是一种全新且具有普适性的数字电路与系统设计方法论。它跨越垂直堆叠的有源层来综合数字系统,联合且持续地优化功耗、性能、密度和成本。带着这个定义,让我来介绍它是如何运作的。

简单来说,数字电路分为没有任何状态的组合布尔逻辑,以及带有触发器以保持状态的时序逻辑。主要的时间缩放目标是减少触发器阶段之间电路路径的逻辑深度。在后端设计中,布局和布线工作必须平衡时钟树并最小化关键路径延迟。因此,关键路径时序是数字系统性能的决定性指标。

电路设计方面,逻辑折叠积极地压缩了相邻触发器之间的传播时间。通过在不同平面上分布关键路径门电路,我们缩短了信号连线并降低了寄生RC效应。时钟变异急剧下降。预留的裕度被大量消除。关键路径缩短,芯片运行得更快。

为了在自由逻辑设计下实现有效的逻辑折叠,我们需要非常非常激进的键合间距和扇出率。或者说金属堆叠的齿轮比。经过多次试验,我们发现混合键合间距与顶部金属间距的比例应小于3。这就非常理想了。换句话说,当今的顶部金属间距约为720纳米,这意味着混合键合间距本身应该小于2微米。就在这一刻,逻辑折叠的奇迹发生了。

麒麟2026与全面的电路级突破

麒麟2026来了,今年晚些时候将推向市场。它标志着我们首次成功实现了逻辑折叠。它建立在全新的自由逻辑设计概念之上,从单层架构扩展到双层架构。

在逻辑折叠之前,我们需要3年时间才能将晶体管密度从每平方毫米1.26亿提升到1.55亿。而在2026年,逻辑折叠技术只需一步,就将其直接提升到了每平方毫米2.38亿个晶体管。与此同时,SOC性能核心的能效提升了41%,最大时钟频率增加了近13%。

为了实现逻辑折叠,我们与合作伙伴一起在设备和工艺层面推动了一波创新浪潮。混合键合的间距现在已经实际上达到了1.5微米。对准覆盖误差小于0.5微米。借助智能冗余技术,良率达到了100%。对于TSV(硅通孔),关键尺寸和禁区缩小到1.5微米以下。间距小于6微米,故障率低于百万分之一百,修复率达到了99.9%。

技术之旅仍在继续。我们正在开发低温混合键合以优化热预算,并将TSV着陆点从顶部金属向下移动到Metal 6或Metal 5,从而释放了超过30%的高层金属布线资源。这些创新也许不会在今年全部投入量产,但将从今年及以后逐步引入到量产产品中。

沿着韬(τ)缩放进一步深入,我们重新设计了几个关键电路。对于数据路径中的高性能计算芯片,我们构建了高速的全局芯片总线网络。利用上下裸片的顶部金属层,缩短了传输距离并实现了更稳定的供电,将数据路径的占用面积削减了60%以上。对于时钟路径,创新的架构使得后硅时钟偏差调整成为可能。单凭这项设计就为SOC性能提升贡献了超过5%。

我将使用SRAM作为另一个例子来进一步解释电路折叠。SRAM的性能不仅仅取决于晶体管。访问速度、每比特能耗和面积效率很大程度上取决于互连长度(如位线和字线),以及位元阵列与外围电路之间的通信延迟。随着面积的增大,互连和通信延迟在晶体管本征延迟中占据了主导地位。对于今天的一个1兆比特的SRAM来说,它们占总延迟的70%以上。我们将逻辑折叠应用于SRAM:首先,折叠通过缩减位元阵列、外围电路和处理核心之间的距离缩短了关键路径;其次,我们优化了每个SRAM组件的RC。总体而言,SRAM的访问延迟降低了,每比特能耗下降了,并且工作频率提升了40%以上。这是一个巨大的数字,在先进节点中真的很难实现这一点。

更重要的是,逻辑折叠为处理核心带来了巨大的收益,尤其是对时钟树的性能而言。通过转向双层折叠架构,时钟缓冲器的数量下降了50%以上,时钟偏差降低了25%,布线长度也减少了约30%。

经过6年时间,我们为逻辑折叠建立了一套初步的方法论和工具链。对于麒麟2026,我们仅在关键部分应用了适度的折叠,混合键合的间距仅达到了1.5微米,明年将达到1微米。TSV着陆层也仅仅迈出了第一步。即使如此,CPU性能核心的频率也将达到预期。这仅仅是个开始。我们花了6年时间准备EDA工具、设计方法论等诸多事项。我曾经以为这可能需要10年,但仅用了6年,我们做到了。

在接下来的10年里,我们将从局部关键路径折叠迈向全尺寸以及多层折叠。实现从设备到系统的全栈优化。从2026年到2035年,随着广泛的研发探索投入到产品中,晶体管密度将会上升,运行频率将会飙升。我们将继续向市场交付尖端的移动芯片。

AI系统演进与统一总线协议

这仅仅是个开始。到目前为止,这只是我们移动应用领域的Tau缩放故事。有人可能会问:在毫瓦级的智能手机世界中起作用的韬(τ)缩放,能否在千兆瓦级的AI数据中心世界中同样奏效?

AI的训练和推理具有高度的并行性。AI绝不是关于单个芯片的。由成百上千个芯片组成的AI系统是超大规模且高度并行的。在过去十年中,这种规模的聚合计算能力攀升了数百万倍。

我们的AI工作以超级节点产品线的形式呈现。去年,昇腾910C开启了超级节点时代。今年,昇腾950将这场博弈带到了另一个高度。在2030年之前,我们将使用行业通用的技术,如Chiplet、2.5D扇出、3D堆叠和标准尺寸混合键合,也会稍微使用一些逻辑折叠技巧。但在2030年左右,我们将推出全新的Ascend(昇腾),即全面采用逻辑折叠的版本,带来另一次性能的巨大飞跃。

Ascend背后的理念仍然是韬(τ)缩放。让我来解释我们是如何应用以时间为中心的韬(τ)原则来赋能强大的AI系统的。

AI工作节点分为大规模训练和推理。有两点非常明确:

首先,网络在不断增长,从一颗芯片到几千颗;

其次,超过80%的能源消耗在移动数据上,超过70%的成本用于存储数据。

因此,对于训练和推理而言,胜利不仅仅在于缩短计算时间,而在于缩短数据在芯片间以及芯片内部移动所花费的时间。用硬件术语来说,就是芯片间互连的时间、芯片内内存带宽的时间,以及用于计算的时间。

对于训练而言,设计空间相对广阔。我们首先关心的是吞吐量,其艺术在于重叠那三种时间。推理则不同。推理更强调快速响应,每一项任务都小得多,但必须实时给出答案,既要求吞吐量又要求低延迟。Token必须立即返回,越快越好。这就是为什么我们目前设计了两种系统。对于推理超级节点,通过联合优化互连、内存带宽和计算,我们的每一代产品都在实现实质性的突破。

当数万颗AI芯片协同工作时,我们需要像在一个单体铁盒子里一样强大的通信能力。为了降低系统Tau,我们引入了一种全新的总线协议——统一总线(Unified Bus,简称UB)。

在传统的多AI芯片架构中,数据交换通常需要复杂且冗余的协议转换,导致高延迟、低可靠性且高成本。UB统一了整个计算机系统的互连,在盒子内部和外部使用相同的协议和硬件。通过完全的点对点架构,我们避免了跨层的转换延迟。

UB的一个新特性是内存语义(Memory Semantics)。在过去,跨层数据传输必须封装到应用层,然后经过复杂的跨协议转换。借助UB,我们在内存语义层实现了免转换的点对点传输。通过完全的点对点的UB架构,我们实现了“系统即单芯片”的理念,打造了一个拥有极低延迟的、独一无二的韬(τ)系统。

突破互连瓶颈:扇出困境与内存融合

光学互连是我们为AI开发的另一项关键技术。将更多的芯片塞进一个单一的机架中,会将功率密度和可靠性推向极限。因此,对于我们的韬(τ)系统,我们选择跨机架的分布式计算机。而High One(高密度光学引擎)是关键的赋能者。

每颗AI芯片400 Gbps的速率可以通过电缆轻松实现。但是,当速率扩展到每秒几兆兆比特(Terabit)时,电缆就变得极具挑战性:传输距离缩短,电缆变得笨重,功耗和散热问题也变得更糟。为了解决这些问题,我们开发了更高密度的光学引擎——High One。单个High One可提供8 Terabit的带宽,与一颗AI芯片的统一总线带宽相匹配。它消除了笨重的电缆,对功耗和散热也非常友好,还将覆盖范围从不到一米扩展到了100米,让千兆瓦级分布式数据中心的高密度互连成为了物理上的现实。

在物理层面上,如果芯片的边长为$N$,计算能力按$N^2$缩放。但是,沿着边缘由2.5D扇出承载的内存带宽、互连和供电,只能按$N$缩放。这条二次曲线与线性曲线之间不断扩大的鸿沟,就是阻碍2.5D缩放的“扇出困境”。系统折叠打破了这一困境。通过将供电、高速内存和光学IO移动到垂直方向上(即放到表面而不是周围边缘),所有这些都能呈二次方缩放,与计算的$N^2$步伐相匹配。

沿着韬(τ)缩放的路径,我们预计到2035年,硬件集成度将增加100倍以上。

最后但同样重要的一点是,对于高性能计算机系统而言,内存和逻辑并不是分离的领域。在1986年的时代,业界通过标准化的内存总线将处理器和内存解耦,这种分离使得这两个行业能够独立扩展。但AI时代现在正在逆转这一趋势。爆炸式增长的计算密度正将内存的带宽、延迟、功耗和封装推向极限,通过HBM、3D封装等技术,迫使逻辑和内存进行更加紧密的整合。

随着数据移动变得与计算本身一样重要,推理的平衡正越来越多地转向内存领域。持久的成功将属于那些能够融合逻辑和内存的人。同样重要的是,建立一种经济伙伴关系,使内存和处理器这两个行业都能在长期内分享融合带来的收益。

挑战与结语

在经历了所有这些实践之后,我们深知仍然面临着许多挑战。

首先,折叠技术需要新的设计方法论和工具链。传统工具尚不足以支持全尺寸的自由逻辑设计。我们已经进行了初步的开发并取得了有用的成果。我们热烈欢迎该领域的合作伙伴和专家加入我们,共同推动未来的改进。

其次,热管理是另一个重大挑战。热压力跨越了设备、电路、芯片和系统,同样跨越了从毫瓦到千兆瓦的12个数量级。我们需要控制和优化热阻与热传导。展望未来,我们希望与行业同仁和合作伙伴一道共同应对能效和散热挑战。

未来十年的技术路线图充满挑战。但方向清晰且坚定。沿着韬(τ)缩放路径走过的六年,实践已经交付了卓越的成果。在电路层面,基于制造标准的晶体管密度已经从1.5亿攀升至2.4亿,甚至每平方毫米3亿个晶体管,并正在迅速逼近每平方毫米4亿个晶体管。对于SOC设计,有效晶体管密度攀升至每平方毫米超过2.5亿个晶体管。

韬(τ)缩放开启了全新的设计空间。CPU性能核心的频率到2031年将突破5 GHz。逻辑折叠在相同功耗下保持了电路级的效率,结合深度的软硬件协同优化,麒麟SOC的能效将在3到5年内实现翻番。在系统层面,对于AI系统,我们同样对交付高质量、低延迟、超大规模的解决方案充满信心。

通过实践,我们已经证明了韬(τ)缩放路径是可行、普适且可持续的。在不同的时间层级,我们可以将Tau函数定义为在每个层级以及跨整个系统进行优化的目标。

在这里,6年,381款芯片,服务于不同的行业部门、市场和客户。我们的愿景是把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界。这始终是我们的承诺。谢谢。

主要信息来源:2026 IEEE国际电路与系统研讨会 (ISCAS 2026)华为何庭波发表题为“半导体新路径探索与实践”的主旨演讲视频

*未经准许严禁转载和摘录-

原文标题 : 华为“半导体新路径探索与实践” 演讲和图片全稿

在以Tau为中心的指导原则下,我们找到了新的路径。...以下为华为公司董事、半导体业务部总裁何庭波“半导体新路径探索与实践”演讲和图片全稿。

首先,这不是一篇专为汽车而生的文章,这是底层半导体芯片类型的文章,但是它会深深改变接下来中国智能汽车的发展,不管是座舱芯片还是智驾芯片,以及云端AI算力芯片。

看懂它或许能够理解中国芯片科技、汽车科技不同的发展道路;看懂它或许能够看懂中国智能供应链的逻辑;看懂它或许能够看懂中国科技运行的方法。或许你能找到商业、投资、职场的新启发。

这就是2026 IEEE国际电路与系统研讨会 (ISCAS 2026)上华为何庭波发表题为“半导体新路径探索与实践”的主旨演讲,也是我们看到各种轰动全球的“韬(τ)定律”与“逻辑折叠(LogicFolding)”技术,以及“时间缩微”替代“几何缩微”的半导体演进新路径。等信息新闻的源头。

当然,最重要的是阅读全文,你可以基于自己的知识面有自己独立的判断,而不是人云亦云,吃各种瓜。

以下为华为公司董事、半导体业务部总裁何庭波“半导体新路径探索与实践” 演讲和图片全稿

半导体演进的新路径:从几何缩放到时间缩放

在过去的六年里,我和我的团队在半导体领域探索了新的路径,并为可持续演进找到了一条出路。今天,基于华为的实践,我将分享我们做了什么、思考了什么,以及学到了什么。

几十年来,蓬勃发展的半导体产业将人类社会推入了信息时代。在这个奇迹背后,是一个兼具技术直观性和经济意义的法则——摩尔定律。在历史上,摩尔定律前景广阔,在保持成本效益的同时不断提升性能。每年我们都能获得更强大的设备、智能手机、个人电脑以及更先进的AI系统。但这种演进严重依赖于几何缩放,而这种缩放已经开始放缓。

FinFET架构将技术路线图又延长了十年。但在7纳米节点及以后,我们和同行遇到了严峻的挑战。几何缩放需要最先进的光刻技术,而它的到来更晚且更加困难。因此,半导体的演进绝不仅仅是几何缩放。几何缩放本身一直致力于带来时间域的收益:更快的晶体管、更短的响应时间、更高的芯片频率。

这意味着空间和时间是同一枚硬币的两面。失去几何缩放并不意味着失去时间缩放。因此,我们提出将从几何缩放向“时间缩放”(韬(τ))的转变,作为电子系统演进的新指导原则。我们认为,时间缩放可以跨越设备、电路、芯片和系统带来巨大的收益。时间缩放是系统演进一直追求的终极目标:不断提高运行频率以获得更高的性能。

在设备层面,转向时间缩放真的很难吗?

恰恰相反。设备典型的运行时间在皮秒或纳秒级别。即使没有几何尺寸的缩小,我们也可以通过前端和后端RC(电阻电容)优化来获得性能提升,因为韬(τ)本身就等于RC的乘积。例如高K金属栅极(HKMG)、应变硅等优秀技术,均成功引入到了过去的节点中。它们都可以提升设备性能。因此,从设备到电路再到芯片,演进可以完全围绕Tau展开。从皮秒到纳秒再到秒,总共跨越了12个数量级。

在电路层面,信号传播时间与互连RC寄生效应、流水线长度和电路深度息息相关。在系统层面,架构创新和系统优化占据主导地位,而这是由设备和工艺改进所赋能的。将时间作为整个电子系统的优化目标,这更加全面、一致且无缝。让我向您展示时间缩放在我们的产品中意味着什么。

移动芯片的困境与逻辑折叠的诞生

让我们从移动端开始。对于智能手机而言,一颗单芯片就构成了整个系统。因此我们必须在设备、电路和芯片层面协同工作。2020年之后,我们与合作伙伴一起付出了巨大的努力,将我们的移动芯片重新推向市场。广泛的DTCO(设计工艺协同优化)和STCO(系统工艺协同优化)工作,为我们的移动客户带来了令人满意的结果。

但按照普遍的预期,在去年发布了产品之后,我们的芯片可能已经达到了饱和状态。要保持同样的演进势头将极具挑战性。但这也是我今天站在这里发表演讲的原因。我们已经没有惊喜了吗?还是事情即将发生改变?在以Tau为中心的指导原则下,我们找到了新的路径。

今年,我们为整个行业准备了一个惊喜。在2026年的秋冬之际,我们将带来这个惊喜。不是饱和,不是简单的延续,而是向前的一大步。那么,我们是如何在饱和区内实现这一突破的呢?

当单个裸片达到其物理极限时,多裸片方案自然而然地进入了视野。我们已经广泛采用了这项技术。但裸片间的互连值得我们仔细审视。典型的互连间距已经从BGA封装的数百微米,演进到凸块的100微米左右,再到微凸块的50至25微米,以及混合键合的约10微米左右。

我们看到这种演进贯穿了HBM3到HBM5,从微凸块转向混合键合。这些技术,包括HBM、3D V-Cache以及行业内的其他技术,在韬(τ)缩放的推动下,提升了带宽并降低了延迟,它们都是非常好的技术或产品。但对于麒麟芯片而言,一颗芯片就是整个系统。仅仅这些是不够的。我们必须继续向前迈进。

那么,我们为麒麟做了什么?

回到韬(τ)缩放的路径上,我们找到了突破口。我们将其命名为“逻辑折叠”(Logical Folding)。

让我先给出一个清晰的定义。遵循时间缩放原则,逻辑折叠是一种全新且具有普适性的数字电路与系统设计方法论。它跨越垂直堆叠的有源层来综合数字系统,联合且持续地优化功耗、性能、密度和成本。带着这个定义,让我来介绍它是如何运作的。

简单来说,数字电路分为没有任何状态的组合布尔逻辑,以及带有触发器以保持状态的时序逻辑。主要的时间缩放目标是减少触发器阶段之间电路路径的逻辑深度。在后端设计中,布局和布线工作必须平衡时钟树并最小化关键路径延迟。因此,关键路径时序是数字系统性能的决定性指标。

电路设计方面,逻辑折叠积极地压缩了相邻触发器之间的传播时间。通过在不同平面上分布关键路径门电路,我们缩短了信号连线并降低了寄生RC效应。时钟变异急剧下降。预留的裕度被大量消除。关键路径缩短,芯片运行得更快。

为了在自由逻辑设计下实现有效的逻辑折叠,我们需要非常非常激进的键合间距和扇出率。或者说金属堆叠的齿轮比。经过多次试验,我们发现混合键合间距与顶部金属间距的比例应小于3。这就非常理想了。换句话说,当今的顶部金属间距约为720纳米,这意味着混合键合间距本身应该小于2微米。就在这一刻,逻辑折叠的奇迹发生了。

麒麟2026与全面的电路级突破

麒麟2026来了,今年晚些时候将推向市场。它标志着我们首次成功实现了逻辑折叠。它建立在全新的自由逻辑设计概念之上,从单层架构扩展到双层架构。

在逻辑折叠之前,我们需要3年时间才能将晶体管密度从每平方毫米1.26亿提升到1.55亿。而在2026年,逻辑折叠技术只需一步,就将其直接提升到了每平方毫米2.38亿个晶体管。与此同时,SOC性能核心的能效提升了41%,最大时钟频率增加了近13%。

为了实现逻辑折叠,我们与合作伙伴一起在设备和工艺层面推动了一波创新浪潮。混合键合的间距现在已经实际上达到了1.5微米。对准覆盖误差小于0.5微米。借助智能冗余技术,良率达到了100%。对于TSV(硅通孔),关键尺寸和禁区缩小到1.5微米以下。间距小于6微米,故障率低于百万分之一百,修复率达到了99.9%。

技术之旅仍在继续。我们正在开发低温混合键合以优化热预算,并将TSV着陆点从顶部金属向下移动到Metal 6或Metal 5,从而释放了超过30%的高层金属布线资源。这些创新也许不会在今年全部投入量产,但将从今年及以后逐步引入到量产产品中。

沿着韬(τ)缩放进一步深入,我们重新设计了几个关键电路。对于数据路径中的高性能计算芯片,我们构建了高速的全局芯片总线网络。利用上下裸片的顶部金属层,缩短了传输距离并实现了更稳定的供电,将数据路径的占用面积削减了60%以上。对于时钟路径,创新的架构使得后硅时钟偏差调整成为可能。单凭这项设计就为SOC性能提升贡献了超过5%。

我将使用SRAM作为另一个例子来进一步解释电路折叠。SRAM的性能不仅仅取决于晶体管。访问速度、每比特能耗和面积效率很大程度上取决于互连长度(如位线和字线),以及位元阵列与外围电路之间的通信延迟。随着面积的增大,互连和通信延迟在晶体管本征延迟中占据了主导地位。对于今天的一个1兆比特的SRAM来说,它们占总延迟的70%以上。我们将逻辑折叠应用于SRAM:首先,折叠通过缩减位元阵列、外围电路和处理核心之间的距离缩短了关键路径;其次,我们优化了每个SRAM组件的RC。总体而言,SRAM的访问延迟降低了,每比特能耗下降了,并且工作频率提升了40%以上。这是一个巨大的数字,在先进节点中真的很难实现这一点。

更重要的是,逻辑折叠为处理核心带来了巨大的收益,尤其是对时钟树的性能而言。通过转向双层折叠架构,时钟缓冲器的数量下降了50%以上,时钟偏差降低了25%,布线长度也减少了约30%。

经过6年时间,我们为逻辑折叠建立了一套初步的方法论和工具链。对于麒麟2026,我们仅在关键部分应用了适度的折叠,混合键合的间距仅达到了1.5微米,明年将达到1微米。TSV着陆层也仅仅迈出了第一步。即使如此,CPU性能核心的频率也将达到预期。这仅仅是个开始。我们花了6年时间准备EDA工具、设计方法论等诸多事项。我曾经以为这可能需要10年,但仅用了6年,我们做到了。

在接下来的10年里,我们将从局部关键路径折叠迈向全尺寸以及多层折叠。实现从设备到系统的全栈优化。从2026年到2035年,随着广泛的研发探索投入到产品中,晶体管密度将会上升,运行频率将会飙升。我们将继续向市场交付尖端的移动芯片。

AI系统演进与统一总线协议

这仅仅是个开始。到目前为止,这只是我们移动应用领域的Tau缩放故事。有人可能会问:在毫瓦级的智能手机世界中起作用的韬(τ)缩放,能否在千兆瓦级的AI数据中心世界中同样奏效?

AI的训练和推理具有高度的并行性。AI绝不是关于单个芯片的。由成百上千个芯片组成的AI系统是超大规模且高度并行的。在过去十年中,这种规模的聚合计算能力攀升了数百万倍。

我们的AI工作以超级节点产品线的形式呈现。去年,昇腾910C开启了超级节点时代。今年,昇腾950将这场博弈带到了另一个高度。在2030年之前,我们将使用行业通用的技术,如Chiplet、2.5D扇出、3D堆叠和标准尺寸混合键合,也会稍微使用一些逻辑折叠技巧。但在2030年左右,我们将推出全新的Ascend(昇腾),即全面采用逻辑折叠的版本,带来另一次性能的巨大飞跃。

Ascend背后的理念仍然是韬(τ)缩放。让我来解释我们是如何应用以时间为中心的韬(τ)原则来赋能强大的AI系统的。

AI工作节点分为大规模训练和推理。有两点非常明确:

首先,网络在不断增长,从一颗芯片到几千颗;

其次,超过80%的能源消耗在移动数据上,超过70%的成本用于存储数据。

因此,对于训练和推理而言,胜利不仅仅在于缩短计算时间,而在于缩短数据在芯片间以及芯片内部移动所花费的时间。用硬件术语来说,就是芯片间互连的时间、芯片内内存带宽的时间,以及用于计算的时间。

对于训练而言,设计空间相对广阔。我们首先关心的是吞吐量,其艺术在于重叠那三种时间。推理则不同。推理更强调快速响应,每一项任务都小得多,但必须实时给出答案,既要求吞吐量又要求低延迟。Token必须立即返回,越快越好。这就是为什么我们目前设计了两种系统。对于推理超级节点,通过联合优化互连、内存带宽和计算,我们的每一代产品都在实现实质性的突破。

当数万颗AI芯片协同工作时,我们需要像在一个单体铁盒子里一样强大的通信能力。为了降低系统Tau,我们引入了一种全新的总线协议——统一总线(Unified Bus,简称UB)。

在传统的多AI芯片架构中,数据交换通常需要复杂且冗余的协议转换,导致高延迟、低可靠性且高成本。UB统一了整个计算机系统的互连,在盒子内部和外部使用相同的协议和硬件。通过完全的点对点架构,我们避免了跨层的转换延迟。

UB的一个新特性是内存语义(Memory Semantics)。在过去,跨层数据传输必须封装到应用层,然后经过复杂的跨协议转换。借助UB,我们在内存语义层实现了免转换的点对点传输。通过完全的点对点的UB架构,我们实现了“系统即单芯片”的理念,打造了一个拥有极低延迟的、独一无二的韬(τ)系统。

突破互连瓶颈:扇出困境与内存融合

光学互连是我们为AI开发的另一项关键技术。将更多的芯片塞进一个单一的机架中,会将功率密度和可靠性推向极限。因此,对于我们的韬(τ)系统,我们选择跨机架的分布式计算机。而High One(高密度光学引擎)是关键的赋能者。

每颗AI芯片400 Gbps的速率可以通过电缆轻松实现。但是,当速率扩展到每秒几兆兆比特(Terabit)时,电缆就变得极具挑战性:传输距离缩短,电缆变得笨重,功耗和散热问题也变得更糟。为了解决这些问题,我们开发了更高密度的光学引擎——High One。单个High One可提供8 Terabit的带宽,与一颗AI芯片的统一总线带宽相匹配。它消除了笨重的电缆,对功耗和散热也非常友好,还将覆盖范围从不到一米扩展到了100米,让千兆瓦级分布式数据中心的高密度互连成为了物理上的现实。

在物理层面上,如果芯片的边长为$N$,计算能力按$N^2$缩放。但是,沿着边缘由2.5D扇出承载的内存带宽、互连和供电,只能按$N$缩放。这条二次曲线与线性曲线之间不断扩大的鸿沟,就是阻碍2.5D缩放的“扇出困境”。系统折叠打破了这一困境。通过将供电、高速内存和光学IO移动到垂直方向上(即放到表面而不是周围边缘),所有这些都能呈二次方缩放,与计算的$N^2$步伐相匹配。

沿着韬(τ)缩放的路径,我们预计到2035年,硬件集成度将增加100倍以上。

最后但同样重要的一点是,对于高性能计算机系统而言,内存和逻辑并不是分离的领域。在1986年的时代,业界通过标准化的内存总线将处理器和内存解耦,这种分离使得这两个行业能够独立扩展。但AI时代现在正在逆转这一趋势。爆炸式增长的计算密度正将内存的带宽、延迟、功耗和封装推向极限,通过HBM、3D封装等技术,迫使逻辑和内存进行更加紧密的整合。

随着数据移动变得与计算本身一样重要,推理的平衡正越来越多地转向内存领域。持久的成功将属于那些能够融合逻辑和内存的人。同样重要的是,建立一种经济伙伴关系,使内存和处理器这两个行业都能在长期内分享融合带来的收益。

挑战与结语

在经历了所有这些实践之后,我们深知仍然面临着许多挑战。

首先,折叠技术需要新的设计方法论和工具链。传统工具尚不足以支持全尺寸的自由逻辑设计。我们已经进行了初步的开发并取得了有用的成果。我们热烈欢迎该领域的合作伙伴和专家加入我们,共同推动未来的改进。

其次,热管理是另一个重大挑战。热压力跨越了设备、电路、芯片和系统,同样跨越了从毫瓦到千兆瓦的12个数量级。我们需要控制和优化热阻与热传导。展望未来,我们希望与行业同仁和合作伙伴一道共同应对能效和散热挑战。

未来十年的技术路线图充满挑战。但方向清晰且坚定。沿着韬(τ)缩放路径走过的六年,实践已经交付了卓越的成果。在电路层面,基于制造标准的晶体管密度已经从1.5亿攀升至2.4亿,甚至每平方毫米3亿个晶体管,并正在迅速逼近每平方毫米4亿个晶体管。对于SOC设计,有效晶体管密度攀升至每平方毫米超过2.5亿个晶体管。

韬(τ)缩放开启了全新的设计空间。CPU性能核心的频率到2031年将突破5 GHz。逻辑折叠在相同功耗下保持了电路级的效率,结合深度的软硬件协同优化,麒麟SOC的能效将在3到5年内实现翻番。在系统层面,对于AI系统,我们同样对交付高质量、低延迟、超大规模的解决方案充满信心。

通过实践,我们已经证明了韬(τ)缩放路径是可行、普适且可持续的。在不同的时间层级,我们可以将Tau函数定义为在每个层级以及跨整个系统进行优化的目标。

在这里,6年,381款芯片,服务于不同的行业部门、市场和客户。我们的愿景是把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界。这始终是我们的承诺。谢谢。

主要信息来源:2026 IEEE国际电路与系统研讨会 (ISCAS 2026)华为何庭波发表题为“半导体新路径探索与实践”的主旨演讲视频

*未经准许严禁转载和摘录-

原文标题 : 华为“半导体新路径探索与实践” 演讲和图片全稿

展开
打开“财经头条”阅读更多精彩资讯
APP内打开