华为“半导体新路径探索与实践” 演讲和图片全稿

财经头条

提升一亿中产阶级阅读效率

打开

智车科技

2天前

在以Tau为中心的指导原则下，我们找到了新的路径。...以下为华为公司董事、半导体业务部总裁何庭波“半导体新路径探索与实践”演讲和图片全稿。

首先，这不是一篇专为汽车而生的文章，这是底层半导体芯片类型的文章，但是它会深深改变接下来中国智能汽车的发展，不管是座舱芯片还是智驾芯片，以及云端AI算力芯片。

看懂它或许能够理解中国芯片科技、汽车科技不同的发展道路；看懂它或许能够看懂中国智能供应链的逻辑；看懂它或许能够看懂中国科技运行的方法。或许你能找到商业、投资、职场的新启发。

这就是2026 IEEE国际电路与系统研讨会 (ISCAS 2026)上华为何庭波发表题为“半导体新路径探索与实践”的主旨演讲，也是我们看到各种轰动全球的“韬(τ)定律”与“逻辑折叠（LogicFolding）”技术，以及“时间缩微”替代“几何缩微”的半导体演进新路径。等信息新闻的源头。

当然，最重要的是阅读全文，你可以基于自己的知识面有自己独立的判断，而不是人云亦云，吃各种瓜。

以下为华为公司董事、半导体业务部总裁何庭波“半导体新路径探索与实践” 演讲和图片全稿

半导体演进的新路径：从几何缩放到时间缩放

在过去的六年里，我和我的团队在半导体领域探索了新的路径，并为可持续演进找到了一条出路。今天，基于华为的实践，我将分享我们做了什么、思考了什么，以及学到了什么。

几十年来，蓬勃发展的半导体产业将人类社会推入了信息时代。在这个奇迹背后，是一个兼具技术直观性和经济意义的法则——摩尔定律。在历史上，摩尔定律前景广阔，在保持成本效益的同时不断提升性能。每年我们都能获得更强大的设备、智能手机、个人电脑以及更先进的AI系统。但这种演进严重依赖于几何缩放，而这种缩放已经开始放缓。

FinFET架构将技术路线图又延长了十年。但在7纳米节点及以后，我们和同行遇到了严峻的挑战。几何缩放需要最先进的光刻技术，而它的到来更晚且更加困难。因此，半导体的演进绝不仅仅是几何缩放。几何缩放本身一直致力于带来时间域的收益：更快的晶体管、更短的响应时间、更高的芯片频率。

这意味着空间和时间是同一枚硬币的两面。失去几何缩放并不意味着失去时间缩放。因此，我们提出将从几何缩放向“时间缩放”（韬(τ)）的转变，作为电子系统演进的新指导原则。我们认为，时间缩放可以跨越设备、电路、芯片和系统带来巨大的收益。时间缩放是系统演进一直追求的终极目标：不断提高运行频率以获得更高的性能。

在设备层面，转向时间缩放真的很难吗？

恰恰相反。设备典型的运行时间在皮秒或纳秒级别。即使没有几何尺寸的缩小，我们也可以通过前端和后端RC（电阻电容）优化来获得性能提升，因为韬(τ)本身就等于RC的乘积。例如高K金属栅极（HKMG）、应变硅等优秀技术，均成功引入到了过去的节点中。它们都可以提升设备性能。因此，从设备到电路再到芯片，演进可以完全围绕Tau展开。从皮秒到纳秒再到秒，总共跨越了12个数量级。

在电路层面，信号传播时间与互连RC寄生效应、流水线长度和电路深度息息相关。在系统层面，架构创新和系统优化占据主导地位，而这是由设备和工艺改进所赋能的。将时间作为整个电子系统的优化目标，这更加全面、一致且无缝。让我向您展示时间缩放在我们的产品中意味着什么。

移动芯片的困境与逻辑折叠的诞生

让我们从移动端开始。对于智能手机而言，一颗单芯片就构成了整个系统。因此我们必须在设备、电路和芯片层面协同工作。2020年之后，我们与合作伙伴一起付出了巨大的努力，将我们的移动芯片重新推向市场。广泛的DTCO（设计工艺协同优化）和STCO（系统工艺协同优化）工作，为我们的移动客户带来了令人满意的结果。

但按照普遍的预期，在去年发布了产品之后，我们的芯片可能已经达到了饱和状态。要保持同样的演进势头将极具挑战性。但这也是我今天站在这里发表演讲的原因。我们已经没有惊喜了吗？还是事情即将发生改变？在以Tau为中心的指导原则下，我们找到了新的路径。

今年，我们为整个行业准备了一个惊喜。在2026年的秋冬之际，我们将带来这个惊喜。不是饱和，不是简单的延续，而是向前的一大步。那么，我们是如何在饱和区内实现这一突破的呢？

当单个裸片达到其物理极限时，多裸片方案自然而然地进入了视野。我们已经广泛采用了这项技术。但裸片间的互连值得我们仔细审视。典型的互连间距已经从BGA封装的数百微米，演进到凸块的100微米左右，再到微凸块的50至25微米，以及混合键合的约10微米左右。

我们看到这种演进贯穿了HBM3到HBM5，从微凸块转向混合键合。这些技术，包括HBM、3D V-Cache以及行业内的其他技术，在韬(τ)缩放的推动下，提升了带宽并降低了延迟，它们都是非常好的技术或产品。但对于麒麟芯片而言，一颗芯片就是整个系统。仅仅这些是不够的。我们必须继续向前迈进。

那么，我们为麒麟做了什么？

回到韬(τ)缩放的路径上，我们找到了突破口。我们将其命名为“逻辑折叠”（Logical Folding）。

让我先给出一个清晰的定义。遵循时间缩放原则，逻辑折叠是一种全新且具有普适性的数字电路与系统设计方法论。它跨越垂直堆叠的有源层来综合数字系统，联合且持续地优化功耗、性能、密度和成本。带着这个定义，让我来介绍它是如何运作的。

简单来说，数字电路分为没有任何状态的组合布尔逻辑，以及带有触发器以保持状态的时序逻辑。主要的时间缩放目标是减少触发器阶段之间电路路径的逻辑深度。在后端设计中，布局和布线工作必须平衡时钟树并最小化关键路径延迟。因此，关键路径时序是数字系统性能的决定性指标。

在电路设计方面，逻辑折叠积极地压缩了相邻触发器之间的传播时间。通过在不同平面上分布关键路径门电路，我们缩短了信号连线并降低了寄生RC效应。时钟变异急剧下降。预留的裕度被大量消除。关键路径缩短，芯片运行得更快。

为了在自由逻辑设计下实现有效的逻辑折叠，我们需要非常非常激进的键合间距和扇出率。或者说金属堆叠的齿轮比。经过多次试验，我们发现混合键合间距与顶部金属间距的比例应小于3。这就非常理想了。换句话说，当今的顶部金属间距约为720纳米，这意味着混合键合间距本身应该小于2微米。就在这一刻，逻辑折叠的奇迹发生了。

麒麟2026与全面的电路级突破

麒麟2026来了，今年晚些时候将推向市场。它标志着我们首次成功实现了逻辑折叠。它建立在全新的自由逻辑设计概念之上，从单层架构扩展到双层架构。

在逻辑折叠之前，我们需要3年时间才能将晶体管密度从每平方毫米1.26亿提升到1.55亿。而在2026年，逻辑折叠技术只需一步，就将其直接提升到了每平方毫米2.38亿个晶体管。与此同时，SOC性能核心的能效提升了41%，最大时钟频率增加了近13%。

为了实现逻辑折叠，我们与合作伙伴一起在设备和工艺层面推动了一波创新浪潮。混合键合的间距现在已经实际上达到了1.5微米。对准覆盖误差小于0.5微米。借助智能冗余技术，良率达到了100%。对于TSV（硅通孔），关键尺寸和禁区缩小到1.5微米以下。间距小于6微米，故障率低于百万分之一百，修复率达到了99.9%。

技术之旅仍在继续。我们正在开发低温混合键合以优化热预算，并将TSV着陆点从顶部金属向下移动到Metal 6或Metal 5，从而释放了超过30%的高层金属布线资源。这些创新也许不会在今年全部投入量产，但将从今年及以后逐步引入到量产产品中。

沿着韬(τ)缩放进一步深入，我们重新设计了几个关键电路。对于数据路径中的高性能计算芯片，我们构建了高速的全局芯片总线网络。利用上下裸片的顶部金属层，缩短了传输距离并实现了更稳定的供电，将数据路径的占用面积削减了60%以上。对于时钟路径，创新的架构使得后硅时钟偏差调整成为可能。单凭这项设计就为SOC性能提升贡献了超过5%。

我将使用SRAM作为另一个例子来进一步解释电路折叠。SRAM的性能不仅仅取决于晶体管。访问速度、每比特能耗和面积效率很大程度上取决于互连长度（如位线和字线），以及位元阵列与外围电路之间的通信延迟。随着面积的增大，互连和通信延迟在晶体管本征延迟中占据了主导地位。对于今天的一个1兆比特的SRAM来说，它们占总延迟的70%以上。我们将逻辑折叠应用于SRAM：首先，折叠通过缩减位元阵列、外围电路和处理核心之间的距离缩短了关键路径；其次，我们优化了每个SRAM组件的RC。总体而言，SRAM的访问延迟降低了，每比特能耗下降了，并且工作频率提升了40%以上。这是一个巨大的数字，在先进节点中真的很难实现这一点。

更重要的是，逻辑折叠为处理核心带来了巨大的收益，尤其是对时钟树的性能而言。通过转向双层折叠架构，时钟缓冲器的数量下降了50%以上，时钟偏差降低了25%，布线长度也减少了约30%。

经过6年时间，我们为逻辑折叠建立了一套初步的方法论和工具链。对于麒麟2026，我们仅在关键部分应用了适度的折叠，混合键合的间距仅达到了1.5微米，明年将达到1微米。TSV着陆层也仅仅迈出了第一步。即使如此，CPU性能核心的频率也将达到预期。这仅仅是个开始。我们花了6年时间准备EDA工具、设计方法论等诸多事项。我曾经以为这可能需要10年，但仅用了6年，我们做到了。

在接下来的10年里，我们将从局部关键路径折叠迈向全尺寸以及多层折叠。实现从设备到系统的全栈优化。从2026年到2035年，随着广泛的研发探索投入到产品中，晶体管密度将会上升，运行频率将会飙升。我们将继续向市场交付尖端的移动芯片。

AI系统演进与统一总线协议

这仅仅是个开始。到目前为止，这只是我们移动应用领域的Tau缩放故事。有人可能会问：在毫瓦级的智能手机世界中起作用的韬(τ)缩放，能否在千兆瓦级的AI数据中心世界中同样奏效？

AI的训练和推理具有高度的并行性。AI绝不是关于单个芯片的。由成百上千个芯片组成的AI系统是超大规模且高度并行的。在过去十年中，这种规模的聚合计算能力攀升了数百万倍。

我们的AI工作以超级节点产品线的形式呈现。去年，昇腾910C开启了超级节点时代。今年，昇腾950将这场博弈带到了另一个高度。在2030年之前，我们将使用行业通用的技术，如Chiplet、2.5D扇出、3D堆叠和标准尺寸混合键合，也会稍微使用一些逻辑折叠技巧。但在2030年左右，我们将推出全新的Ascend（昇腾），即全面采用逻辑折叠的版本，带来另一次性能的巨大飞跃。

Ascend背后的理念仍然是韬(τ)缩放。让我来解释我们是如何应用以时间为中心的韬(τ)原则来赋能强大的AI系统的。

AI工作节点分为大规模训练和推理。有两点非常明确：

首先，网络在不断增长，从一颗芯片到几千颗；

其次，超过80%的能源消耗在移动数据上，超过70%的成本用于存储数据。

因此，对于训练和推理而言，胜利不仅仅在于缩短计算时间，而在于缩短数据在芯片间以及芯片内部移动所花费的时间。用硬件术语来说，就是芯片间互连的时间、芯片内内存带宽的时间，以及用于计算的时间。

对于训练而言，设计空间相对广阔。我们首先关心的是吞吐量，其艺术在于重叠那三种时间。推理则不同。推理更强调快速响应，每一项任务都小得多，但必须实时给出答案，既要求吞吐量又要求低延迟。Token必须立即返回，越快越好。这就是为什么我们目前设计了两种系统。对于推理超级节点，通过联合优化互连、内存带宽和计算，我们的每一代产品都在实现实质性的突破。

当数万颗AI芯片协同工作时，我们需要像在一个单体铁盒子里一样强大的通信能力。为了降低系统Tau，我们引入了一种全新的总线协议——统一总线（Unified Bus，简称UB）。

在传统的多AI芯片架构中，数据交换通常需要复杂且冗余的协议转换，导致高延迟、低可靠性且高成本。UB统一了整个计算机系统的互连，在盒子内部和外部使用相同的协议和硬件。通过完全的点对点架构，我们避免了跨层的转换延迟。

UB的一个新特性是内存语义（Memory Semantics）。在过去，跨层数据传输必须封装到应用层，然后经过复杂的跨协议转换。借助UB，我们在内存语义层实现了免转换的点对点传输。通过完全的点对点的UB架构，我们实现了“系统即单芯片”的理念，打造了一个拥有极低延迟的、独一无二的韬(τ)系统。

突破互连瓶颈：扇出困境与内存融合

光学互连是我们为AI开发的另一项关键技术。将更多的芯片塞进一个单一的机架中，会将功率密度和可靠性推向极限。因此，对于我们的韬(τ)系统，我们选择跨机架的分布式计算机。而High One（高密度光学引擎）是关键的赋能者。

每颗AI芯片400 Gbps的速率可以通过电缆轻松实现。但是，当速率扩展到每秒几兆兆比特（Terabit）时，电缆就变得极具挑战性：传输距离缩短，电缆变得笨重，功耗和散热问题也变得更糟。为了解决这些问题，我们开发了更高密度的光学引擎——High One。单个High One可提供8 Terabit的带宽，与一颗AI芯片的统一总线带宽相匹配。它消除了笨重的电缆，对功耗和散热也非常友好，还将覆盖范围从不到一米扩展到了100米，让千兆瓦级分布式数据中心的高密度互连成为了物理上的现实。

在物理层面上，如果芯片的边长为$N$，计算能力按$N^2$缩放。但是，沿着边缘由2.5D扇出承载的内存带宽、互连和供电，只能按$N$缩放。这条二次曲线与线性曲线之间不断扩大的鸿沟，就是阻碍2.5D缩放的“扇出困境”。系统折叠打破了这一困境。通过将供电、高速内存和光学IO移动到垂直方向上（即放到表面而不是周围边缘），所有这些都能呈二次方缩放，与计算的$N^2$步伐相匹配。

沿着韬(τ)缩放的路径，我们预计到2035年，硬件集成度将增加100倍以上。

最后但同样重要的一点是，对于高性能计算机系统而言，内存和逻辑并不是分离的领域。在1986年的时代，业界通过标准化的内存总线将处理器和内存解耦，这种分离使得这两个行业能够独立扩展。但AI时代现在正在逆转这一趋势。爆炸式增长的计算密度正将内存的带宽、延迟、功耗和封装推向极限，通过HBM、3D封装等技术，迫使逻辑和内存进行更加紧密的整合。

随着数据移动变得与计算本身一样重要，推理的平衡正越来越多地转向内存领域。持久的成功将属于那些能够融合逻辑和内存的人。同样重要的是，建立一种经济伙伴关系，使内存和处理器这两个行业都能在长期内分享融合带来的收益。

挑战与结语

在经历了所有这些实践之后，我们深知仍然面临着许多挑战。

首先，折叠技术需要新的设计方法论和工具链。传统工具尚不足以支持全尺寸的自由逻辑设计。我们已经进行了初步的开发并取得了有用的成果。我们热烈欢迎该领域的合作伙伴和专家加入我们，共同推动未来的改进。

其次，热管理是另一个重大挑战。热压力跨越了设备、电路、芯片和系统，同样跨越了从毫瓦到千兆瓦的12个数量级。我们需要控制和优化热阻与热传导。展望未来，我们希望与行业同仁和合作伙伴一道共同应对能效和散热挑战。

未来十年的技术路线图充满挑战。但方向清晰且坚定。沿着韬(τ)缩放路径走过的六年，实践已经交付了卓越的成果。在电路层面，基于制造标准的晶体管密度已经从1.5亿攀升至2.4亿，甚至每平方毫米3亿个晶体管，并正在迅速逼近每平方毫米4亿个晶体管。对于SOC设计，有效晶体管密度攀升至每平方毫米超过2.5亿个晶体管。

韬(τ)缩放开启了全新的设计空间。CPU性能核心的频率到2031年将突破5 GHz。逻辑折叠在相同功耗下保持了电路级的效率，结合深度的软硬件协同优化，麒麟SOC的能效将在3到5年内实现翻番。在系统层面，对于AI系统，我们同样对交付高质量、低延迟、超大规模的解决方案充满信心。

通过实践，我们已经证明了韬(τ)缩放路径是可行、普适且可持续的。在不同的时间层级，我们可以将Tau函数定义为在每个层级以及跨整个系统进行优化的目标。

在这里，6年，381款芯片，服务于不同的行业部门、市场和客户。我们的愿景是把数字世界带入每个人、每个家庭、每个组织，构建万物互联的智能世界。这始终是我们的承诺。谢谢。

主要信息来源：2026 IEEE国际电路与系统研讨会 (ISCAS 2026)华为何庭波发表题为“半导体新路径探索与实践”的主旨演讲视频

*未经准许严禁转载和摘录-

原文标题 : 华为“半导体新路径探索与实践” 演讲和图片全稿