AI推理芯片，产能暴增66%

AI推理芯片，产能暴增66%

智车科技

3天前

Groq反其道而行之，用片上SRAM替代片外HBM，虽然单芯片存储容量较小（230MB），但凭借超高的内部带宽和极低的访问延迟，在运行大语言模型推理时，实现了比GPU快10倍、能效高10倍的惊人表现。

就在英伟达GTC 2026大会前夕，AI芯片领域传来一则重磅消息：明星初创公司Groq决定大幅提升其人工智能芯片产量，从去年的约9000片晶圆猛增至15000片，增幅高达66%。

要理解这66%产能跃升背后的深意，必须回溯到去年底那场震动业界的合作。2025年12月，英伟达以约200亿美元的非独家技术授权方式，实质性地“吞下”了Groq的核心资产。

交易的核心并非收购公司，而是获取其革命性的LPU（语言处理单元）推理芯片技术，并吸纳了包括创始人Jonathan Ross在内的约90%核心团队。这位谷歌TPU项目的元老，带着他颠覆性的架构理念，加入了英伟达的阵营。

这绝非一次普通的商业合作，而是一场针对未来算力战争的精准卡位。英伟达凭借Hopper和Blackwell架构，在AI模型训练市场已近乎无敌。然而，在AI应用落地的最后一公里——推理环节，尤其是对延迟极度敏感的实时交互场景，传统GPU的架构瓶颈开始显现。

而Groq的LPU，正是为攻克这一短板而生。它采用激进的片上SRAM（静态随机存取存储器）架构，摒弃了传统GPU依赖的外部HBM（高带宽内存），将数据存储与计算单元极度拉近，从而实现了数量级的内存带宽提升（高达80TB/s）和能效优化。

简单来说，它让AI推理变得像“闪电应答”，而这正是下一代AI应用体验的核心。

那么，为何选择在此时大幅提升产能？答案直指一个正在爆发的市场：AI推理。随着ChatGPT、Sora等应用引爆全球，AI产业正从重投入的“训练时代”，快速迈向规模化的“推理时代”。

训练出一个大模型固然艰难，但让全球数十亿用户流畅使用它，所需的推理算力将是训练阶段的数十甚至上百倍。

博通CEO陈福阳在最新财报中透露，其AI芯片收入同比暴增106%，并预计明年将超过1000亿美元，这强劲增长的背后，正是推理需求的喷发。

Groq产能的暴增，可以看作是英伟达为迎接这场“推理海啸”所做的关键备货。

根据协议，Groq将继续作为独立公司运营，其芯片仍由三星电子的4纳米晶圆代工部门生产。此次从9000片到15000片的提升，意味着三星相应的4nm产线需要开足马力。

更有行业观察指出，英伟达极有可能在即将于3月16日开幕的GTC 2026大会上，发布整合了Groq LPU技术的新一代推理芯片或“LPX机架”混合计算方案。

届时，一个由英伟达GPU主导训练、Groq LPU赋能高效推理的“黄金组合”将正式浮出水面。

这次产能扩张，也是Groq所代表的SRAM技术路线的一次重要验证。在AI芯片领域，HBM（高带宽内存）因其大容量一直是高端GPU的标配，但也带来了高成本、高功耗和供应链依赖（尤其是台积电CoWoS封装）的挑战。

这种“以速度换容量”的设计哲学，恰恰击中了实时推理场景的命门。对于需要毫秒级响应的AI助手、实时翻译、交互式创作等应用，用户感知的不是模型参数有多大，而是回答有多快、多流畅。

Groq LPU正是为此而生，它通过复杂的编译器技术，将大模型的计算任务精细编排，让数据在庞大的SRAM阵列中如流水般精准送达每个计算单元，消除了传统架构中的等待与拥堵。

此次产能提升，意味着市场和技术正在用真金白银为这条差异化路线投票。

Groq的崛起与“被收编”，以及随之而来的产能扩张，深刻反映了AI算力战场的新逻辑：单纯的硬件性能霸权正在让位于全栈生态的竞争。

英伟达看似以巨额代价“招安”了一个挑战者，实则是以最高效的方式，将一种可能颠覆其护城河的架构纳入自身版图，补齐了推理拼图。这不仅防御了来自Cerebras等专用推理芯片厂商的冲击，更对正在自研AI芯片的亚马逊、微软、谷歌等云巨头构成了更强的生态壁垒。

算力的未来，不仅仅在于拥有最大的“脑容量”，还要锻造最敏捷的“神经反射”。AI需要从深思的“学者”走向行动的“智者”。