智算中心重磅炸弹——英伟达黄仁勋发布AI工厂操作系统

来源:中国IDC圈

16小时前

宣布推出“AI工厂的操作系统”NvidiaDynamo,用于加速和扩展AI工厂中的推理模型;为支持AI工厂扩展到数百万个GPU,还推出了首个采用共同封装光学(CPO)技术的硅光子系统等。

2-1

北京时间3月19日凌晨,英伟达创始人兼CEO黄仁勋发表GTC 2025主题演讲。黄仁勋宣布了一系列重磅发布,展示了英伟达在加速计算和AI领域的最新进展和未来布局。

黄仁勋指出,AI处于一个关键的转折点,推理和Agentic AI的需求推动了计算量的激增。他还预测到2030年,数据中心的建设规模将达到一万亿美元;未来有工厂的企业将会有两个工厂:一个用于生产实际产品,另一个是AI工厂。

大会现场,黄仁勋宣布Blackwell平台已全面投产,在特定推理模型测试场景下,Blackwell的性能最高可达Hopper的40倍。今年下半年将推出的Blackwell Ultra,还透露了下一代 NVIDIA Rubin Ultra GPU 和 NVIDIA Vera CPU 架构的细节。

此外,宣布推出“AI工厂的操作系统”Nvidia Dynamo,用于加速和扩展AI工厂中的推理模型;为支持AI工厂扩展到数百万个GPU,还推出了首个采用共同封装光学(CPO)技术的硅光子系统等。

Nvidia Dynamo 是一款开源的 AI 推理服务软件,专为加速和扩展 AI 工厂中的 AI 推理模型而设计。它通过高效地编排和协调大量 GPU 上的 AI 推理请求,确保 AI 工厂以最低成本运行,同时最大化 token 收入。

据IDC圈不完全统计,当前国内拟建、在建智算中心约有600座左右(详情参考:600+智算项目450+未投产,DeepSeek对IDC产业9大冲击|算力产业核心内刊)。Nvidia Dynamo发布之后,将对这些项目的下一步部署和运营带来极大影响。黄仁勋还宣布通用汽车将采用NVIDIA AI、模拟和加速计算技术来开发下一代汽车、工厂和机器人。在机器人方面,英伟达还发布了Omniverse(物理AI的操作系统)、新一代世界基础模型Cosmos、Newton(与DeepMind和Disney Research合作开发的物理引擎)以及人形机器人的通用基础模型Isaac Groot N1并开源。

以下是GTC2025黄仁勋演讲全文实录

经数字开物团队编译整理

欢迎来到GTC!今年真是太棒了。我们Nvidia一直想把GTC办好,所以,今天我们用AI的魔法,带大家到Nvidia总部逛一逛。猜猜这是哪儿?这就是我们平时工作的地方!真是精彩的一年。我们有很多超酷的事情要和大家分享。先说好,我可是完全即兴发挥,没有稿子,也没有提词器,不过我要讲的东西可不少。咱们这就开始吧!

首先,我要感谢所有的赞助商,感谢所有参与这次大会的嘉宾们。几乎各行各业都有代表参加。医疗、交通、零售,还有计算机行业,计算机行业的各位都来了。见到大家真是太好了,感谢你们的赞助。

GTC最早是从GeForce开始的。一切都源于GeForce。今天我手上拿的是GeForce5090。你敢信吗,我们开始做GeForce已经25年了,现在GeForce在全世界都卖断货了。这是5090,采用Blackwell架构。跟4090比,体积小了30%,散热效果好了30%,性能更是难以置信,甚至难以比较,这都得归功于AI。

GeForce把CUDA带给了全世界,CUDA又让AI成为可能。现在,AI反过来又彻底改变了计算机图形学。你们现在看到的可是实时的计算机图形,100%路径追踪。每渲染一个像素,AI就能预测出另外15个。想想看,我们用数学方法渲染一个像素,AI就能推算出另外15个!而且,它还必须算得特别准,这样图像才好看,而且还得保证时序稳定,也就是说,一帧一帧地看,不管是往前还是往后,因为这是计算机图形,所以它得一直保持稳定。

2-2

太不可思议了,AI这些年进步太大了。虽然也就10年时间。我们讨论AI的时间可能更长一些。但AI真正火起来,也就是十年前的事。一开始是感知AI,比如计算机视觉、语音识别,后来就是生成式AI。过去五年,我们主要关注生成式AI,教AI怎么把一种形式的东西转换成另一种形式。文本变图像,图像变文本,文本变视频,氨基酸变蛋白质,属性变化学物质。我们能用AI生成各种各样的东西。

生成式AI彻底改变了计算机的工作方式,从原来的检索式计算模型,变成了现在的生成式计算模型。以前,我们做的基本上都是预先创建好内容,存好几个版本,用的时候再挑一个合适的。现在,AI能理解你说的是什么,明白你的意思,知道你要干什么,然后直接生成你需要的东西。有需要的话,它还会自己去找资料,加深理解,然后给你生成答案。它不再是简单地找数据,而是直接生成答案。这可是计算方式的根本性变革,计算机的每一层都变了。

过去几年,特别是最近两三年,AI领域有了重大突破。这是AI的根本性进步。我们管它叫基于智能体的AI(Agentic AI)。Agentic AI基本上意味着AI有了自己的“代理”,能自己干活了。它能感知周围的环境,理解发生了什么。它能推理,更厉害的是,它能琢磨怎么回答问题,怎么解决问题。它能规划行动,并付诸实践。它还能用各种工具,因为它现在能理解各种各样的信息,也就是多模态信息。它能上网,看网页的布局、文字、视频,甚至还能看视频学习,理解了之后,再用这些新学到的知识来完成任务。

Agentic AI的核心,当然是一种全新的能力——推理。而且,下一波浪潮已经来了。今天我们会好好聊聊这个。这就是机器人技术(Robotics),它是由物理AI(physical AI)来驱动的。物理AI就是能理解现实世界的AI,它懂摩擦力、惯性、因果关系、物体恒存性这些东西。比方说,一个东西挪到墙角后面了,AI知道它还在那儿,只是看不见了。所以说,这种理解现实世界、理解三维世界的能力,会开启一个AI的新时代,我们叫它物理AI,它会让机器人技术更上一层楼。

2-3

每一个阶段,每一波浪潮,都给我们大家带来了新的赚钱机会。也给GTC带来了更多新的合作伙伴。所以,GTC现在都快挤爆了。要想让更多人来GTC,唯一的办法就是把圣何塞给扩建了。我们正在努力,我们有的是地。圣何塞,你可得加油发展,这样我们才能把GTC办得更大更好。说真的,我站在这儿,真希望你们也能看到我看到的。我们现在就在一个体育场的正中间。去年是咱们恢复线下活动的第一年。当时就跟摇滚音乐会似的。有人说GTC是AI界的伍德斯托克音乐节。今年呢,又有人说它是AI界的超级碗。唯一的区别就是,在这个超级碗里,大家都是赢家!所以,每年都有越来越多的人来,因为AI能给越来越多的行业、越来越多的公司解决更多更有意思的问题。今年,要好好聊聊Agentic AI和物理AI的核心。

那么,到底是什么推动了AI的每一波浪潮和每一个阶段呢?这里面有三个关键。

首先是怎么解决数据的问题。这一点很重要,因为AI是一种数据驱动的计算机科学方法。它得从数据里学习,从数字化的经验里学习,才能学到知识,积累经验。那么,怎么解决数据问题呢?第二个问题是,怎么才能在没有人工干预的情况下训练AI?“人工干预”这事儿挺麻烦的,因为咱们的时间有限,我们又希望AI能学得飞快,比人快得多,而且能学得特别多,多到人根本跟不上。所以,第二个问题就是,怎么训练模型?

第三个问题是,怎么才能让AI规模化,不断扩展?如何创造、如何找到一种算法,使得你提供的资源越多(无论是什么样的资源),AI就变得越聪明。这就是Scaling Law。然而,在过去的一年里,几乎全世界都对此产生了误判。计算需求,也就是AI的Scaling Law,其韧性远超预期,实际上呈现出超加速增长的态势。由于Agentic AI,由于推理能力的引入,我们现在所需的计算量,比去年同期我们的预期高出了100倍。让我们来分析一下这背后的原因。

首先,让我们从AI能够做什么入手,然后反向推导。正如我之前提到的,Agentic AI的基础实际上是推理能力。我们现在所拥有的AI能够进行推理,这意味着它们可以将一个问题逐步分解。也许,它会尝试几种不同的方法来解决问题,然后选择最佳答案。又或许,它会用多种方式来解决同一个问题,以确保得到一致的最佳答案。这被称为一致性检查。再或者,在得出答案之后,它会把答案代入到原始的方程式中——例如一个二次方程式——来验证答案是否正确,而不是简单地、一次性地给出结果。还记得两年前我们刚开始使用ChatGPT的时候吗?尽管它是一个奇迹,但许多复杂的问题,甚至是许多简单的问题,它都无法给出正确的答案。这是可以理解的。它只是进行了一次尝试。基于它通过学习预训练数据所获得的知识,基于它从其它经验、预训练数据中所看到的内容,它会像一个学者一样,一次性地给出答案。但现在,我们拥有的AI能够一步一步地进行推理,这得益于一系列的技术,如思维链、一致性检查,以及各种不同的路径规划等技术。现在,我们拥有的AI能够推理,能够将问题分解,一步一步地进行推理。

可以想象,这样一来,我们生成的Token数量,虽然AI的基础技术仍然是相同的——生成下一个Token,预测下一个Token,但现在的下一个Token构成了第一步,然后是下一个Token,在它生成第一步之后,第一步会再次作为输入,让AI生成第二步、第三步和第四步。所以,它不再是简单地生成一个Token或一个单词,而是生成一系列的单词,这些单词代表着推理的一个步骤。因此,生成的Token数量大幅增加。稍后我会给你们展示具体的数据,现在可以轻松达到100倍的增长。增长了100倍。这意味着什么呢?这意味着,它可以生成100倍的Token。

正如我之前解释的,这种情况可能会发生,或者是因为模型变得更加复杂,从而生成10倍的Token。而为了保持模型的响应速度和交互性,避免我们因为等待AI思考而失去耐心,我们现在必须将计算速度提升10倍。因此,10倍的Token,10倍的速度。我们所需要的计算量很容易就达到了100倍。所以,你们会在接下来的演示中看到这一点。

2-4

现在,我们进行推理所需的计算量比过去要大得多。那么,接下来的问题就是,我们如何教会AI完成我刚才所描述的任务,如何执行这个思维链?一种方法是,你必须教会AI如何推理。正如我之前在关于训练的部分提到的,我们需要解决两个基本问题。数据从何而来?以及我们如何避免受到“人工干预”的限制?因为我们能够提供的数据和进行的演示是有限的。而这正是过去几年里取得的重大突破。强化学习,以及可验证的结果。

本质上,这是对AI的一种强化学习,当它尝试解决一个问题时,一步一步地进行。在人类历史上,我们已经解决了许多问题,并且知道这些问题的答案。我们知道二次方程的公式以及如何求解。我们知道如何求解勾股定理,知道直角三角形的规则。我们知道许多数学、几何、逻辑和科学方面的规则。我们有一些益智游戏,我们可以给AI设置一些约束条件,比如数独之类的游戏,等等。我们有数百个这样的问题空间,我们可以生成数百万个不同的例子,让AI有成百上千次的机会逐步解决问题,同时,我们使用强化学习来奖励那些表现越来越好的AI。因此,综合来看,我们有数百个不同的主题,数百万个不同的例子,数百次的尝试,每一次尝试都会产生数万个Token。把所有这些加在一起,就是为了训练模型而产生的数万亿个Token。现在,借助强化学习,我们有能力生成海量的Token,还有合成数据生成,其实就是使用一种类似于机器人的方法来训练AI。这两项技术的结合,给整个行业带来了巨大的计算挑战。你们可以看到,整个行业正在积极应对。

接下来我要向你们展示的是Hopper的出货量,来自前四大云服务提供商(CSP)。这四大云服务提供商拥有公有云,分别是Amazon、Azure、GCP和OCI。这前四大云服务商,注意,这里面并不包括AI公司,也不包括所有的初创公司和企业。有很多都没有包括在内,仅仅是这四家。这只是为了让你们对Hopper的出货高峰年份以及Blackwell的第一年有一个大致的了解。

2-5

你们可以看到,事实上,AI正在经历一个拐点。它变得更加有用,因为它变得更聪明了。它能够进行推理,因此它的应用也更加广泛。从一个现象就可以看出它的应用越来越广泛:现在每当你使用ChatGPT的时候,似乎等待的时间越来越长了,但这其实是一件好事。这说明有很多人都在有效地使用它。而训练这些模型以及进行推理所需的计算量,都出现了巨大的增长。所以,仅仅在一年之内(Blackwell才刚刚开始发货),你们就可以看到AI基础设施的惊人增长。与此同时,整个计算领域也反映了这一点。我们现在看到的情况是一直到这个十年的结束,到2030年,我预计数据中心的建设规模将达到一万亿美元。我相当肯定,我们很快就会达到这个数字。

2-6

(紫色部分代表分析师对全球数据中心(包括云服务提供商和企业等)资本支出增长的预测)

有两种趋势同时发生。第一种趋势是,绝大部分的增长可能会被加速。绝大部分的增长可能会被加速。这意味着我们早就知道了,通用计算这条路已经走到头了,我们需要一种新的计算方法。整个世界正在经历一场平台级的转变,从原来在通用计算机上跑的手工编写的软件,转向在加速器和GPU上跑的机器学习软件。这种计算方式,可以说,已经越过了那个关键的转折点。现在,我们能看到拐点正在出现,全球的数据中心建设正在发生巨变。所以,第一件事,就是我们的计算方式变了。

第二个是越来越多的人意识到,未来的软件是需要真金白银的投入的。这是一个非常重要的概念。在过去,我们写好软件,然后在计算机上运行就完事了。但未来不一样了,计算机会为软件生成Token。这样一来,计算机就成了Token的生成器,而不是简单的文件检索器。从基于检索的计算到生成式计算,从老一套的数据中心模式,到构建这些新型基础设施,我把它们叫做AI工厂。它们就是AI工厂,因为它们只干一件事,那就是生成这些特别厉害的Token,然后我们再把这些Token重新组合成音乐、文字、视频、研究成果、化学品或者蛋白质,等等。我们把它转化成各种各样的信息。

所以,整个世界正在经历一场变革,不仅仅是信息量、要建设的数据中心数量在变,连怎么建设的方式都在变。数据中心里,所有的东西都会被加速,但不一定都是AI。关于这一点,我想多说几句。这张幻灯片,是我个人的最爱。为什么这么说呢?因为这么多年来,你们一直都来参加GTC,一直听我在这里讲这些库。实际上,这就是GTC的核心所在,浓缩在这一张幻灯片里。

2-7

不夸张地说,很久以前,20年前,我们就只有这一张幻灯片。一个库接着一个库,不断地增加。你不能光去加速软件本身。这就好比,我们需要一个AI框架来创造AI,然后我们去加速这个AI框架。同样的道理,你也需要物理学、生物学、多物理场,以及各种各样的量子物理学的框架。你需要各种各样的库和框架。我们把它们叫做CUDA X库,它们是各个科学领域的加速框架。第一个要介绍的库非常厉害,NumPy是全世界下载量最大、使用最广泛的Python库,去年一年就被下载了4亿次。CuLitho,是一个计算光刻库。经过四年多的努力,我们现在已经掌握了处理光刻的整个流程,也就是计算光刻,这是晶圆厂里的第二个工厂。一个是制造晶圆的工厂,另一个是制造用于生产晶圆的信息的工厂。

每个行业,每个拥有工厂的公司,未来都会有两个工厂。一个是负责生产实际产品的工厂,另一个是负责进行数学计算的工厂。AI工厂,汽车工厂,汽车的AI工厂,智能音箱工厂,还有智能音箱的AI工厂。CuLitho就是我们的计算光刻。台积电、三星、ASML,以及我们的合作伙伴Synopsys、Mentor,都给予了我们极大的支持。我认为,这个领域现在正处在一个关键的转折点,再过五年,每一个光刻过程,都将在Nvidia的平台上进行处理。Cuda Arial是我们的5G库。把GPU变成5G无线电设备,这有什么不可以呢?信号处理可是我们的强项。一旦我们搞定了这个,我们就能在它的基础上叠加AI。也就是用于RAN的AI,或者我们叫它AI RAN。下一代的无线电网络,一定会深度嵌入AI。为什么我们现在会被信息论限制住呢?因为我们能获得的频谱资源就那么多。但是,如果我们加上AI,情况就完全不同了。Cu OPT是数值优化,或者叫数学优化。几乎每个行业都会用到它,比如你安排航班座位、管理库存和客户、协调工人和工厂、调度司机和乘客等等,总之就是会遇到各种各样的约束条件。大量的约束,大量的变量,你需要对时间、利润、服务质量、资源利用率等等进行优化。

Nvidia就用它来管理我们的供应链。Cu OPT是一个非常强大的库。它能把原本需要几个小时才能完成的任务,缩短到几秒钟。这有什么意义呢?这意味着我们现在可以探索一个大的多的解空间。我们已经宣布,将会开源Cu OPT。现在,几乎所有人都在用Gurobi或者IBM、CPLEX或者FICO。

我们正在和这三家公司紧密合作。整个行业都非常兴奋。我们即将为这个行业带来巨大的加速。Parabricks是用于基因测序和基因分析的。MONAI是全球领先的医学成像库。Earth2是用于预测高分辨率局部天气的多物理场仿真库。CuQantum和Cuda Q,我们将在GTC上举办我们的第一个量子计算日。我们正在和这个生态系统里的几乎所有人合作,要么帮助他们研究量子架构、量子算法,要么一起构建经典的加速量子异构架构。所以,这方面的工作非常令人兴奋。cuTENS0R和相关量子化学加速库是用于张量收缩和量子化学的。当然了,这个技术栈是世界闻名的。很多人以为只有一个叫做CUDA的软件,但实际上,在CUDA之上,有一整套的库,这些库被集成到了整个生态系统、软件和基础设施的方方面面,这样才能让AI成为可能。

今天,我还要宣布一个新的成员:cuDss,我们的稀疏求解器。这对于CAE(计算机辅助工程)来说至关重要。这是过去一年里发生的最重要的事情之一。通过与Cadence、Synopsys、Ansys、Dassault,以及所有这些系统公司的合作,我们现在已经让几乎所有重要的EDA(电子设计自动化)和CAE库都实现了加速。说出来你们可能不信,直到最近,Nvidia还一直使用通用计算机,运行着速度非常慢的软件,来为其他人设计加速计算机。原因就在于,我们之前一直没有针对CUDA进行优化的软件。所以,现在随着我们转向加速计算,我们的整个行业都将迎来一次巨大的飞跃。CuDf,是用于处理结构化数据的数据框。我们现在已经实现了对Spark和Pandas的嵌入式加速。真是太棒了,然后,我们还有Warp,这是一个用Python编写的物理库,是专门为CUDA打造的Python物理库。关于这个,我们有一个重要的消息要宣布,我先卖个关子,稍后再说。

这里展示的只是一小部分能够实现加速计算的库。绝不仅仅只有CUDA。我们为CUDA感到无比自豪,但如果没有CUDA,没有我们如此庞大的用户基础,这些库也不会被这么多的开发者所使用。对于所有使用这些库的开发者来说,你们之所以使用它,首先是因为它能给你们带来难以置信的加速,能让你们实现难以置信的规模扩展;其次,是因为CUDA的用户基础现在无处不在。它存在于每一个云平台,每一个数据中心,全世界每一家计算机公司都在提供它。毫不夸张地说,它无处不在。所以,通过使用这些库中的任何一个,你的软件,你那些优秀的软件,就能触及到每一个人。因此,我们现在已经到达了加速计算的转折点。CUDA让这一切成为可能。而你们在座的每一位,这就是GTC的意义所在,整个生态系统,是你们所有人让这一切成为可能。所以,我们为你们准备了一个小短片。谢谢大家。

向所有的创造者、先行者、未来的建设者们致敬!CUDA为你们而生。自2006年以来,全球超过200个国家和地区的600万开发者使用了CUDA,并彻底改变了计算领域。凭借着900多个CUDA X库和AI模型,你们正在加速科学的进步,重塑各行各业,并赋予机器视觉、学习和推理的能力。现在,Nvidia Blackwell的速度比第一代CUDA GPU快了5万倍。这种数量级的速度提升,以及规模的扩展,正在不断缩小模拟与现实之间的差距。数字孪生(DigitalTwins)。而对于你们来说,这仅仅是一个开始。我们迫不及待地想看到你们接下来的行动。

我热爱我们的工作。我更热爱你们用它所创造的一切。在我这33年的职业生涯中,最让我感动的一件事,是一位科学家对我说:“Jensen,因为这项工作,因为你的工作,我终于可以在有生之年完成我毕生的事业了。”老天,如果这都不能打动你,那你可真是太麻木了。所以,这一切都是为了你们。谢谢大家。

我们继续来聊聊AI。AI最初是在云端发展起来的,这是有原因的。因为事实证明,AI需要基础设施。它是机器学习。既然这门科学叫做机器学习,那你就需要一台机器来进行科学研究。所以,机器学习需要基础设施。而云数据中心恰恰拥有基础设施。他们还拥有非常强大的计算机科学和卓越的研究实力。这是AI在云端和云服务提供商那里蓬勃发展的绝佳条件。但这并不是AI的终点。AI将会无处不在。我们将从多个角度来探讨AI。当然了,云服务提供商都喜欢我们的尖端技术。他们喜欢我们拥有全栈的技术体系,因为正如我之前解释过的,加速计算不仅仅是芯片的事情。甚至不仅仅是芯片、库和编程模型,而是芯片、编程模型,以及构建在它们之上的一整套软件。

整个技术栈是非常复杂的。每一层,每一个库,基本上都类似于SQL。SQL,被称为存储计算。它是IBM在计算领域掀起的一场重大革命。SQL仅仅是一个库。大家可以想象一下,我刚才给你们展示了一大堆库,而在AI领域,还有更多。所以,这个技术栈是非常复杂的。云服务提供商也喜欢Nvidia CUDA的开发者同时也是他们的客户,因为归根结底,他们是在为全世界构建基础设施。所以,一个繁荣的开发者生态系统是非常有价值的,也是备受赞赏的。现在,我们要把AI推广到世界各地,而世界各地的情况千差万别,系统配置不同、操作环境不同、特定领域的库不同,使用方式也不同。

所以,当AI应用到企业中,IT应用到制造业、机器人技术或者自动驾驶汽车领域,甚至应用到那些刚刚起步的GPU云公司时,有很多这样的公司,大概有20家,它们都是在Nvidia时代创立的。他们只做一件事,那就是托管GPU,他们把自己叫做GPU云。我们的一个重要合作伙伴Core Weave正在准备上市,我们为他们感到非常骄傲。所以,GPU云有他们自身的需求。但其中一个让我非常感兴趣的领域是边缘计算。

2-8

今天,我们宣布,Cisco、Nvidia、T-Mobile,这家全球最大的电信公司,以及Cerberus ODC,将要为美国的无线电网络构建一个全栈的技术体系。这将是第二个技术栈。所以,我们今天宣布的这个技术栈,将会把AI引入到边缘计算领域。大家要记住,全球每年有1000亿美元的资本投资于无线电网络和所有用于未来通信的数据中心,毫无疑问,这些投资都将转向采用融入了AI的加速计算。AI肯定能在调整无线电信号、大规模MIMO,使之适应不断变化的环境和交通状况方面,做得更好。当然,我们会利用强化学习来实现这一点。MIMO本质上就是一个巨大的无线电机器人。这是毋庸置疑的。所以,我们当然会提供这些能力。AI无疑会给通信领域带来革命性的变化。大家想想,平时我给家里打电话的时候,不用多说什么,就几个字,因为我妻子知道我在哪儿工作,工作状态怎么样,我们的话题可以接着昨天继续聊,她大概也记得我喜欢什么、不喜欢什么,通常只需要几个字,就能表达很多信息。之所以这样,是因为存在着上下文,以及人类的先验知识。如果把这些能力结合起来,就能给通信领域带来翻天覆地的变化。看看它在视频处理方面所取得的成就。再看看我刚才所描述的3D图形。所以,我们当然也会在边缘计算领域做同样的事情。

因此,我对我们今天宣布的消息感到非常兴奋。T-Mobile、Cisco、Nvidia、Cerberus、ODC将会一起构建一个全栈的技术体系。AI将会进入到各行各业。这仅仅是其中之一。AI最早进入的领域之一就是自动驾驶汽车。当年我第一次看到Alexnet的时候,我们已经在计算机视觉领域耕耘了很长时间。看到Alexnet的那一刻,真是令人振奋,非常激动人心。这促使我们下定决心,要全力以赴地投入到自动驾驶汽车的研发中。所以,我们从事自动驾驶汽车的研发已经有十多年了,我们开发的技术几乎每一家自动驾驶汽车公司都在使用。这些技术可能应用在数据中心里。例如,特斯拉在数据中心里使用了大量的Nvidia GPU。也可能应用在数据中心或者汽车里。Waymo和Zoox在数据中心和汽车里都使用了我们的计算机。也可能仅仅应用在汽车里。这种情况比较少见,但有时候确实只应用在汽车里,或者他们会使用我们的所有软件。

此外,我们和汽车行业也有合作。更准确地说,汽车行业希望和我们合作。我们打造了三种计算机:训练计算机、模拟计算机和机器人计算机,也就是自动驾驶汽车的计算机。还有运行在这些计算机之上的所有软件、模型和算法。这和我之前展示的其他所有行业的情况是一样的。

今天,我非常高兴地宣布,通用汽车选择了Nvidia作为合作伙伴,一起来打造他们未来的自动驾驶汽车车队。自动驾驶汽车的时代已经到来了,我们期待着与通用汽车在三个领域展开AI方面的合作:制造领域的AI,用来革新他们的制造方式;企业级AI,用来革新他们的工作方式、汽车设计和汽车模拟;以及车内AI。为通用汽车构建AI基础设施,与通用汽车携手合作,共同打造他们的AI。

2-9

我对此感到非常兴奋。有一个领域我感到非常自豪,但很少有人关注到,那就是汽车安全,我们称之为Halos。安全这项工作,需要从芯片到整个系统的全方位技术。系统软件、算法、方法论,从多样性到确保多样性、监控、透明度、可解释性等等,所有这些不同的理念都必须深深地融入到你开发系统和软件的每一个环节。我相信,我们是全球第一家对每一行代码都进行安全评估的公司。七百万行代码都经过了安全评估。我们的芯片、我们的系统、我们的系统软件,以及我们的算法,都经过了第三方的安全评估,他们会逐行检查代码,以确保其设计能够保证多样性、透明度和可解释性。我们还申请了1000多项专利,在这次GTC期间,我强烈建议大家去参加Halos的研讨会,亲眼看看所有这些技术是如何融合在一起,来确保未来的汽车既安全又能够实现自动驾驶的。这是我感到非常自豪的一件事情。但很少有人关注到这一点,所以这次我想多花点时间来聊聊这个话题。好的,Nvidia Halos。你们都见过汽车自动驾驶的场景。Waymo的无人驾驶出租车非常棒。但是,我们制作了一段视频,想和大家分享一下我们用来解决数据、训练和多样性问题的一些技术,这样我们就可以利用AI的魔力来创造AI。让我们一起来看看。

Nvidia正在利用Omniverse和Cosmos来加速自动驾驶汽车(AVs)的AI开发。Cosmos的预测和推理能力为AI优先的AV系统提供了支持,这些系统可以通过新的开发方法、模型蒸馏、闭环训练和合成数据生成来实现端到端的训练。首先,模型蒸馏被用作一种策略模型。Cosmos的驾驶知识从一个速度较慢、但更智能的“老师”(这里指的是一个性能更好但速度较慢的模型)那里,迁移到一个更小、更快的“学生”(这里指的是一个需要部署到车端的模型)那里,并在车端进行推理。

老师的策略模型展示了最佳的行驶轨迹,学生模型通过反复迭代学习来模仿这条轨迹,直到它的表现几乎与老师的模型相同。蒸馏过程可以快速启动一个策略模型,但复杂的路况需要进一步的微调。闭环训练可以对策略模型进行微调。日志数据会被转换成3D场景,然后在基于物理的模拟环境中,利用Omniverse神经重建来进行闭环驾驶,创建这些场景的不同版本,来测试模型的轨迹规划能力。

然后,Cosmos行为评估器可以对生成的驾驶行为进行评分,来评估模型的性能。新生成的场景以及它们的评估结果,会创建一个用于闭环训练的大型数据集,帮助自动驾驶汽车更稳定可靠地应对复杂的路况。

最后,3D合成数据生成增强了自动驾驶汽车对不同环境的适应能力。Omniverse根据日志数据,通过融合地图和图像,构建出细节丰富的4D驾驶环境,并生成真实世界的数字孪生,包括通过对每个像素进行分类来指导Cosmos进行语义分割。然后,Cosmos通过生成准确且多样化的场景来扩展训练数据,从而缩小模拟环境和真实环境之间的差距。Omniverse和Cosmos使自动驾驶汽车能够学习、适应并智能地驾驶,从而推动实现更安全的出行。

Nvidia就是干这个的。这是我们的使命:用AI来创造AI。我们刚才给你们展示的那些技术,跟你们现在正在体验的、把你们带入到我们称之为Nvidia的数字孪生世界的那些技术,非常相似。好了,咱们来聊聊数据中心。Blackwell已经全面投产了,就是这个样子。真是太了不起了。你们知道吗,对于我们来说,这简直就是一件艺术品。你们觉得呢?这可是一件大事,因为我们在计算机架构上实现了一个根本性的转变。

实际上,大概三年前,我给你们展示过一个类似的版本。它叫做 Grace Hopper,整个系统叫做 Ranger。Ranger 系统大概有屏幕一半那么宽。它是世界上第一个 NVLink。三年前,我们展示了 Ranger 的运行效果,但是它太大了。不过,我们的思路是完全正确的。我们当时想要解决的就是扩展性的问题。横向扩展的分布式计算,简单来说,就是用一大堆不同的计算机一起工作,来解决一个特别大的问题。

2-10

但是在进行横向扩展之前,纵向扩展是必不可少的。两者都很重要,但是你得先进行纵向扩展,然后再进行横向扩展。纵向扩展非常困难,没有那么容易的解决方案。你不能像用 Hadoop 那样去进行纵向扩展或者横向扩展。弄一堆普通的计算机,把它们连接到一个大型网络里,然后用 Hadoop 来进行存储计算。大家都知道,Hadoop 是一个革命性的想法,它让超大规模的数据中心能够解决海量的数据问题,而且通常使用的都是现成的计算机。然而,我们现在要解决的问题实在是太复杂了,如果用 Hadoop 那种方式来进行扩展,会消耗掉太多的电力和能源。那样的话,深度学习就根本不可能实现了。所以,我们必须要做的就是首先进行纵向扩展。这就是我们进行纵向扩展的方式。我可搬不动这个大家伙。它足足有 70 磅重(约 31.8 公斤)。这是上一代的产品。整个系统的架构叫做 HGX。它彻底改变了我们所熟知的计算。它彻底改变了AI。

这里面有八个 GPU。每一个 GPU 都跟这个差不多。大家看,这是两个 GPU,两个 Blackwell GPU 被封装在一个 Blackwell 芯片里面。这个下面有八个这样的封装。它会连接到我们称之为 NVLink8 的这个东西上。然后,它再连接到像那样的 CPU 托架上。

所以这里有两个 CPU,位于整个系统的顶部。我们通过 PCI Express 来连接它们。然后,其中有很多个会通过 InfiniBand 连接起来,最终形成一个 AI 超级计算机。

2-11

过去是这样的。这就是我们一开始的方案。这就是我们在进行横向扩展之前,所能达到的纵向扩展的极限。但是我们希望能够进一步地进行纵向扩展。我之前跟大家说过,Ranger 这个系统,在之前的基础上又进行了横向扩展,更确切地说,是纵向扩展了四倍。我们当时有了 NVLink32,但是整个系统实在是太大了。所以,我们必须要做一些非常了不起的事情。那就是重新设计 NVLink 的工作方式,以及纵向扩展的方式。我们做的第一件事,就是,我们意识到,这个系统中的 NVLink 交换机是嵌入在主板上的。我们需要把 NVLink 系统解耦出来,把它单独拿出来。这就是 NVLink 系统。

大家看,这是一个 NVLink 交换机。这是目前世界上性能最强的交换机。它能够让每一个 GPU 都能够同时以全带宽和其他所有的 GPU 进行通信。这就是 NVLink 交换机。我们把它解耦出来,把它单独拿出来,然后放到了整个机箱的中央。这里一共有 18 个这样的交换机,分布在九个不同的机架里面,我们把它们叫做交换机托盘。然后,这些交换机是相互独立的。计算单元现在位于这里。它的计算能力相当于之前那两个部分的计算能力。最厉害的是,这是完全液冷的。通过液冷技术,我们能够把所有这些计算节点都压缩到一个机架里面。这是整个行业的一个重大变革。在座的各位,我知道你们来了很多人。我要感谢你们,和我们一起实现了从集成的 NVLink 到解耦的 NVLink、从风冷到液冷的这一根本性的转变。从每台计算机大约 60,000 个组件,到每个机架 600,000 个组件。20 千瓦全液冷。这样一来,我们就在一个机架里面实现了一台 Exaflops 级别的超级计算机。这难道不令人惊叹吗?这就是计算节点。

2-12

现在,它可以被安装到其中一个机架里面。3,000 磅(约 1360 千克)重,5,000 根线缆,长度大约有两英里。这真是一个令人难以置信的电子设备。600,000 个零部件。我觉得这相当于 20 辆汽车的零部件。把 20 辆汽车的零部件集成到一台超级计算机里面。我们的目标就是要实现这一点。我们的目标就是要进行纵向扩展。这就是它现在的样子。我们本质上是想要构建这样一块芯片。但是,没有任何光刻掩膜版的尺寸限制能够允许我们这样做。没有任何现有的工艺技术能够做到这一点。它拥有 130 万亿个晶体管。其中有 20 万亿个晶体管是用于做冗余计算的。所以,在短期之内,你根本不可能合理地制造出这样的芯片。

要解决这个问题,方法就是把它进行解耦,就像我刚才描述的那样,把它分解成 Grace Blackwell NVLink 72 机架。但最终的结果是,我们完成了终极的纵向扩展。这是世界上有史以来最极端的纵向扩展。这里能够实现的计算量、内存带宽(高达 570 TB/秒),这台机器里的一切现在都是以 T(万亿)为单位的。你拥有了一个 Exaflops,也就是每秒一百万万亿次的浮点运算能力。我们之所以要这样做,是为了解决一个极端的问题。

很多人误以为这个问题很简单,但实际上,这是最极端的计算问题。它叫做推理。原因很简单。推理就是一个工厂生产 Token 的过程。而工厂是用来产生收入和利润的,或者说,是会产生亏损的。所以,这个工厂必须以极高的效率和极高的性能来建造。因为这个工厂里的一切,都会直接影响到你的服务质量、你的收入和你的盈利能力。我来给大家解释一下这张图表怎么看,因为我一会儿还会再回到这张图表。

基本上,这里有两个坐标轴。X 轴是每秒钟生成的 Token 数量。每当你进行聊天的时候,当你向 ChatGPT 输入一个提示 的时候,它输出的就是 Token。这些 Token 会被重新组合成单词。每个单词可不止一个 Token。它们会把“the”这样的词进行 Token 化,它可以用于“the”、“them”、“theory”、“theatrics”等等各种情况。“the”就是一个 Token 的例子。他们会把这些 Token 重新组合成单词。我们已经确定了,如果你想让你的 AI 变得更聪明,你就需要生成大量的 Token。

这些 Token 包括推理 Token、一致性检查 Token,以及提出一大堆想法,然后从中选择最佳方案的 Token。所以,这些 Token,它可能是在进行自我反思,这是否是我能做的最好的工作?所以它会像我们平时自言自语一样,跟自己对话。你生成的 Token 越多,你的 AI 就越聪明。但是,如果你回答一个问题花了太长的时间,客户就不会再来了。这和网页搜索是一个道理。在返回一个智能的答案之前,它能够花费的时间是有限度的。所以,你就会面临这两个相互制约的维度。你一方面想要生成大量的 Token,但另一方面,你又希望能够尽快地完成。所以,你的 Token 生成率就非常重要。你希望每一个用户每秒钟能够获得的 Token 数量越多越好。

2-13

然而,在计算机科学和工厂运营中,延迟、响应时间和吞吐量之间存在着一个根本性的矛盾。原因很简单。如果你从事的是大批量的业务,你会进行批量处理,这叫做批处理。你把大量的客户需求集中起来,然后生产出一个特定的版本,供所有人稍后使用。然而,从批量生产开始,到你最终使用,这中间可能会间隔很长的时间。所以,这对于计算机科学来说是一样的,对于生成Token 的 AI 工厂来说也是一样的。所以,你面临着这两个基本的矛盾。一方面,你希望客户的服务质量能够尽可能地好,希望 AI 能够非常智能,而且响应速度要快。另一方面,你又希望你的数据中心能够为尽可能多的人生产 Token,这样你才能最大化你的收入。最理想的状态是右上角。理想情况下,这条曲线的形状应该是一个正方形,这样你就可以为每一个用户快速地生成 Token,一直到达到工厂的极限为止。但是,没有任何工厂能够做到这一点。所以,它可能是一条曲线。你的目标是最大化曲线下面的面积,也就是 X 和 Y 的乘积。你向外扩展得越多,通常就意味着你正在建造的工厂越好。

2-14

事实证明,对于整个工厂的每秒 Token 数,以及响应时间的每秒 Token 数而言,其中一个需要巨大的计算量,而另一个维度则需要巨大的带宽和计算量。所以,这是一个非常难以解决的问题。一个比较好的解决思路是,你应该拥有大量的 flops、大量的带宽、大量的内存,大量的各种资源。这是最好的出发点,这也是为什么这是一台如此出色的计算机的原因。你从尽可能多的 flops、尽可能多的内存、尽可能多的带宽开始,当然,还有最好的架构、最高的能效,而且你必须拥有一个编程模型,能够让你运行各种软件,所有这些都非常困难,这样你才能实现最终的目标。现在,让我们来看一下这个演示,让大家对我们正在讨论的内容有一个更直观的感受,请播放视频。

传统的大语言模型具备基础知识,而推理模型则利用思维 Token来解决复杂的问题。这里有一个例子,要求在满足特定约束条件——比如遵循传统、考虑拍照角度以及处理家庭成员间的矛盾——下来为一个婚礼宴会安排座位。传统的 LLM 可以在 500 个 Token 内迅速给出答案,但可能会出错。而推理模型则需要思考超过 8000 个 Token 才能得出正确答案。这就好比需要一位牧师来维持现场秩序一样。

各位,大家都知道,如果你要为一个 300 人的婚礼安排座位,想找到一个完美的,或者说最佳的方案,这事儿通常只有 AI 或者新娘的母亲才能搞定。合作模式 (co-op) 在这种情况下是行不通的。大家可以看到,我们给模型提出了一个需要推理的问题。R1 开始运行,它进行各种推理,尝试不同的方案,然后回过头来检验自己的答案,判断自己做得对不对。与此同时,上一代的大语言模型采用的是单次生成的方式,只用了 439 个 Token。它速度是挺快,看起来也挺有效,但结果却是错的。这 439 个 Token 就白白浪费掉了。另一方面,如果要对这个问题进行充分的推理——实际上这还是一个相对简单的问题,如果我们加入更多更复杂的变量,那推理的难度可就大大增加了。最终,推理模型使用了将近 9000 个 Token,而且由于模型本身的复杂性,计算量也更大了。这是一个方面。

在给大家展示具体结果之前,我先来解释一下其他方面。对于这个问题的答案,咱们来看一下 Blackwell 系统,以及现在已经规模化的 NVLink 72。首先,我们需要用到这个模型。这个模型可不小,比如说 R1 吧,大家可能觉得它小,但实际上它有 6800 亿个参数。而下一代的模型,参数可能会达到数万亿。要解决这个问题,办法就是把这数万亿的参数,或者说整个模型的工作负载,给它分散到整个 GPU 系统里去。可以采用张量并行,把模型的某一层放到多个 GPU 上去跑;也可以采用管道并行,把整个流程中的一部分切出来,放到多个 GPU 上去;还可以采用专家并行,把不同的专家模型部署到不同的 GPU 上。这三种并行方式——管道并行、张量并行和专家并行——组合起来的数量非常庞大。而根据具体的模型、工作负载和实际情况,我们需要灵活地调整计算机的配置,来达到最大的吞吐量。

有时候,我们需要优化来获得极低的延迟,有时候呢,我们需要优化吞吐量。这就需要用到一些动态批处理的技术,以及其他各种用来做批处理和聚合工作的技术。所以说,这些 AI 工厂的软件,或者说操作系统,那是相当复杂的。这里有一个非常重要的观察结果,像 NVLink72 这样的同构架构,它有一个巨大的优势,那就是每一个 GPU 都可以执行我刚才说的所有这些操作。我们观察到,这些推理模型在计算的过程中会经历好几个不同的阶段。其中一个阶段就是思考。在思考的阶段,模型不会产生大量的 Token,它产生的 Token 可能是给自己用的。模型在思考,可能是在阅读,在消化信息。这些信息可能是一个 PDF 文件,可能是一个网站,甚至可能是一段视频,模型以超线性的速度把这些信息都给吸收进来。

然后,模型把所有这些信息汇总起来,形成一个答案,或者说一个计划好的答案。所以说,这种信息消化和上下文处理的过程需要大量的浮点运算。接下来的阶段叫做解码 (decode)。我们把第一部分叫做预填充。解码阶段同样需要浮点运算,但更重要的是,它需要极高的带宽。如果一个模型有数万亿个参数,那么很容易就能算出来,它每秒需要好几个 TB 的带宽。我之前提到过每秒 576 TB,仅仅是从 HBM 显存里头把模型读出来,然后生成一个 Token,就需要每秒好几个 TB 的带宽。为什么每次只生成一个 Token 呢?这是因为这些大语言模型是在预测下一个 Token。这就是为什么我们说“下一个 Token”,它不是预测每一个 Token,它是在预测下一个 Token。

现在我们有各种各样的新技术,比如说推测解码  等等,可以加速这个过程。但归根结底,模型还是在预测下一个 Token。模型会读取整个模型和上下文(我们把它叫做 KV 缓存,KV cache),然后生成一个 Token。接下来,模型把这个 Token 再放回去考虑,生成下一个 Token,就这么循环往复。每一次循环,模型都需要读取数万亿个参数,生成一个 Token;再读取数万亿个参数,生成另一个 Token;就这么不断地重复。在刚才的演示里,我们生成了 8600 个 Token。这意味着数万亿字节的信息被输入到 GPU 里头,每次只产生一个 Token。这也就是为什么我们特别需要 NVLink 的根本原因。

NVLink 能让我们把所有这些 GPU 整合起来,变成一个巨无霸,实现终极的规模扩展。其次,因为现在所有的资源都通过 NVLink 连起来了,我们就可以把预填充和解码这两个过程给它分开,根据需要,把更多的 GPU 用在预填充上,少一点的 GPU 用在解码上。因为模型需要进行大量的思考,作为一个 AI Agent,它需要阅读大量的信息,做深度的研究。大家可以回想一下深度研究的过程。我之前听到 Michael 谈到他做研究的方式,我也会做类似的事情。

我们会为我们的 AI 启动一些非常庞大的研究项目。我很喜欢这种方式,因为我已经为硬件付过钱了,我非常乐意让我们的 GPU 全力工作,这能给我带来极大的乐趣。我会写点儿东西,然后 AI 就开始进行各种各样的研究,它可能会访问 94 个不同的网站,把所有的信息都读一遍。我呢,也在读这些信息,AI 会根据这些信息形成一个答案,然后写出一份报告。这简直太棒了。

在整个过程里,预填充阶段特别忙,但实际上并没有生成很多的 Token。另一方面,当你在跟聊天机器人聊天的时候,几百万的用户同时都在做类似的事情,那 Token 生成的需求量就会非常大,也就是说解码的负载会非常重。所以,根据不同的工作负载,我们可能会决定把更多的 GPU 用在解码上,或者把更多的 GPU 用在预填充上。这种动态调整的操作,那是非常复杂的。

刚才我已经给大家介绍了管道并行、张量并行、专家并行、动态批处理、推理任务的分解以及工作负载管理。另外,我还需要处理 KV 缓存,把它路由到正确的 GPU 上去,还得管理它在整个内存层级结构里头的流动。这部分软件的复杂程度,那是相当高的。所以,今天我们正式发布 Nvidia Dynamo。

2补

Nvidia Dynamo 负责处理所有这些复杂的工作,它本质上就是 AI 工厂的操作系统。过去,我们运行数据中心,用的操作系统跟VMware 差不多。我们会编排——现在也还是这样,我们是一个大用户——我们会编排大量的企业级应用,让它们在我们的企业 IT 基础设施上跑起来。但是在未来,应用不再是传统的企业 IT 应用了,而是 AI Agent;操作系统也不再是 VMware 之类的了,而是 Dynamo。这个操作系统将运行在 AI 工厂之上,而不是传统的数据中心之上。

我们把它叫做 Dynamo,这是有深刻含义的。大家都知道,Dynamo 是开启上一次工业革命,也就是能源革命的关键设备。水流进发电机,电力就这么产生了。通过水流,或者点燃燃料,把水烧开了产生蒸汽,驱动发电机,最终输出的是电力这种看不见、摸不着,但是极具价值的能量。之后又过了差不多 80 年,才发展出交流电。但是 Dynamo,正是一切的开端。

所以,我们把这个操作系统,这个复杂得不得了的软件,叫做 Nvidia Dynamo。它是开源的,完全公开。我们非常高兴能有这么多的合作伙伴跟我们一起来开发它。其中,我最喜欢的合作伙伴之一,Perplexity,我非常欣赏他们,不光是因为他们做的那些开创性的工作,还因为 Aravin 真的是一个非常棒的人。Perplexity 在这个项目上跟我们是紧密合作。现在,我们需要等基础设施扩展完成,但与此同时,我们已经做了很多很多的模拟,非常深入。我们用超级计算机来模拟我们的超级计算机,这完全是合情合理的。现在,我要给大家展示一下,我前面讲的这些技术都能带来什么好处。大家请回忆一下工厂的示意图。

2-15

在图上,纵坐标 (Y 轴) 表示整个工厂每秒钟能生成的 Token 数量,横坐标 (X 轴) ,表示用户体验到的每秒 Token 数量。我们的目标是构建超级智能的 AI,并且实现大规模的部署。这个是 Hopper 的性能曲线。Hopper 能够为每一个用户提供大概每秒钟 100 个 Token 的生成速度。这是由 8 个 GPU 通过 InfiniBand 连接起来的一个系统。我把性能标准化成了每兆瓦每秒的 Token 数。这是一个 1 兆瓦的数据中心,对于 AI 工厂来说规模不算大哈,但我们先以 1 兆瓦为例。在这个规模下,Hopper 可以为每个用户提供每秒 100 个 Token 的生成速度,整个 1 兆瓦的数据中心每秒可以生成 10 万个 Token。或者,如果进行大规模的批处理,并且用户愿意等比较长的时间,那么整个 AI 工厂每秒可以生成大概 250 万个 Token。Hopper 的吞吐量是 250 万。

这是个什么概念?250 万意味着什么?怎么去理解这个数字?大家可以回想一下,ChatGPT 的价格大概是每 100 万个 Token 10 美元,对吧?每 100 万个 Token 10 美元。咱们先假设一下,我觉得每 100 万个 Token 10 美元的价格大概在这个位置 (图表较低的位置)。我估计它应该在这个位置,但咱们不妨假设它在更高的位置 (图表较高位置)。250 万乘以 10,就是每秒 2500 万美元。或者,如果价格在比较低的这个位置,那就是 10 万,除以 10,也就是每个工厂每秒 25 万美元。一年有 3153.6 万秒,把这个数字乘以每秒的收入,就能估算出这个 1 兆瓦数据中心一年的收入。这就是我们的目标。

一方面,我们希望 Token 的生成速度越快越好,这样才能构建真正智能的 AI。如果 AI 足够智能,用户就愿意掏更多的钱。另一方面,AI 越智能,单个请求需要的计算量就越大,所以在总的吞吐量上就会有所下降。这是一个非常合理的权衡。我们现在要做的,就是改进这条曲线。

我现在给大家展示的,是目前世界上最快的计算机,Hopper,它曾经引领了一场革命。那么,我们怎么才能更上一层楼?首先,我们推出了 Blackwell,还有 NVLink8。同样的 Blackwell 芯片,同样的计算节点,配上 NVLink8,用的是 FP8 精度。Blackwell 就是更快,规模更大,晶体管更多,所有方面都有提升。但我们希望更进一步。所以,我们引入了一种新的精度。虽然它并不完全等同于 4 位浮点数,但是通过用 4 位浮点数,我们可以对模型进行量化,从而降低能耗,用更少的能量来完成同样的工作。这样一来呢,因为完成同样的任务需要的能量少了,我们就能完成更多的工作。

大家要记住,一个很重要的理念就是,未来所有的数据中心都会受到功率的限制。你的收入会受到功率的限制。你可以根据你能用到的功率来估算你的收入。这跟其他很多行业的情况是一样的。所以,我们现在所处的,是一个功率受限的行业。我们的收入会跟这个直接相关。

正因为这样,我们需要确保我们拥有能效最高的计算架构。接下来,我们通过 NVLink72 来进行扩展。大家注意看 NVLink72 和 FP4 精度下的 Blackwell 之间的性能差别。由于我们的架构是高度集成的,现在我们又增加了动态特性,Dynamo 可以进一步提升性能。Dynamo 对 Hopper 也有帮助,但是它对 Blackwell 的提升尤其明显。

2-16

大家注意看我标出来的这两个亮点,这差不多就是系统的“最佳工作点”。这很可能就是你运行工厂时候的最佳状态。你需要在这两者之间找到一个平衡:最大的吞吐量和 AI 的最高质量。最智能的 AI,还有最大规模的部署,这两个指标的交汇点,才是我们真正需要去优化的目标。

如果我们把这两个方框给它放大,这就是 Blackwell 和 Hopper 的详细对比。Blackwell 的性能远远好于 Hopper。大家要记住,这不是在芯片数量相同的情况下的对比,而是在功耗相同的情况下的对比。这是终极的摩尔定律,这才是摩尔定律一直以来真正的含义。现在,在同样的功耗下,Blackwell 的性能提升了 25 倍,这不是芯片数量一样,也不是晶体管数量一样,而是功耗一样,这是最终的限制因素。我们能给数据中心提供的能源是有限的。所以,在同样的功耗下,Blackwell 实现了 25 倍的性能提升。

2-17

现在,大家看到的是“性能彩虹图”。这非常了不起,也是最有意思的部分。大家可以看到各种各样的配置,在帕累托前沿曲线 (Pareto Frontier)下面有几百万种可能的数据中心配置方式。我们可以用各种不同的方式来分配工作负载,进行并行化和分片。我们找到了最佳的解决方案,也就是这个帕累托前沿。帕累托前沿上的每一个点,都对应着一种不同的配置,用不同的颜色来表示。

这表明,我们需要一个可编程的架构,而且这个架构要尽可能地具有同构性和可替代性,因为在整个帕累托前沿上,工作负载的变化非常剧烈。大家看,在图的最上边,我们有专家并行度是 8,批处理大小是 3000,分解关闭,Dynamo 关闭的配置。在图的中间,专家并行度是 64,其中 26% 用来做上下文处理。也就是说,Dynamo 打开,26% 的资源用来做上下文处理,剩下的 74% 用来做非上下文处理/解码,批处理大小是 64,专家并行度分别是 64 和 4。在图的最下边,我们有张量并行度是 16,专家并行度是 4,批处理大小是 2,上下文占比 1% 的配置。在整个范围内,计算机的配置都在不断地变化。

接下来,我们来看一下输入序列长度的影响。这是一个常用的测试场景。这是一个比较容易进行基准测试的场景。输入序列长度是 1000 个 Token,输出序列长度是 2000 个 Token。大家注意,我们之前展示的那个演示里,输出序列长度高达 9000 个 Token,甚至 8000 个 Token。很明显,这个测试场景不能完全代表之前的那个聊天示例。但这个场景更有代表性。我们的目标是为下一代的工作负载构建下一代的计算机。这有一个推理模型的例子,在这个推理模型里,Blackwell 的性能是 Hopper 的 40 倍!这是一个非常惊人的提升。

我之前说过等 Blackwell 开始大规模出货的时候,Hopper 估计就白送都没人要了。我指的就是这个。如果有人还在考虑买 Hopper,别担心,没关系的。但我是“首席收入终结者”,我的销售团队会说:“别这么说” 有些情况下,Hopper 还是够用的。这是我对 Hopper 能说的最好的一句话了。如果让我大胆猜一下的话,适用的情况不多。这就是我想表达的观点。

当技术发展得这么快,工作负载这么重,而且你正在构建这些 AI 工厂的时候,我们真的希望你投资到正确的版本上。为了让大家更直观地了解,这是一个 100 兆瓦工厂的对比。基于 Hopper,你需要 45000 个芯片,1400 个机架,每秒可以生成 3 亿个 Token。而基于 Blackwell 呢,你只需要 86 个机柜!是啊,我知道,这看起来不合常理。我们不是想少卖给你们,我们的销售团队会说:“Jensen,你这是在减少销量,但 Blackwell 更好。”

总之,你买的越多,省的就越多。现在情况甚至更好了,你买的越多,赚的就越多!大家要记住,一切都要放在 AI 工厂的背景下来考虑。虽然我们一直在说芯片,但实际上,我们始终是从整体的规模出发的。我们说芯片,但出发点始终是整体的规模,是能够扩展到的最大的规模。

2-18

现在,我想给大家展示一下 AI 工厂的实际的样子。但是 AI 工厂实在是太复杂了。我刚才只是举了一个机架的例子,它里头有 60 万个零件,重量达到了 3000 磅。现在,我们需要把这个机架跟其他很多的机架连起来。所以,我们开始构建所谓的“数字孪生”,也就是每一个数据中心的数字孪生。在建数据中心之前,你必须先建一个数字孪生。来看一下,这真是太漂亮了。

当前,全球各国都在竞相建设最先进的大规模 AI 工厂。建设 AI 超级工厂是一项非凡的工程壮举,它需要来自供应商、建筑师、承包商和工程师等数万名工作人员的共同努力,来建造、运输和组装近 50 亿个组件,以及超过 20 万英里的光纤——这个距离几乎相当于从地球到月球的距离。Nvidia OMniverse 蓝图为 AI 工厂的数字孪生提供了有力支持,使我们能够在实际建设开始之前很久,就对这些 AI 工厂进行超前的设计和优化。

今天,Nvidia 的工程师们正在使用该蓝图来规划一个 1 吉瓦的 AI 工厂,该工厂集成了最新的 Nvidia DGX 超级计算集群 的 3D 和布局数据、来自 Vertiv 和 Schneider Electric 的先进电源和冷却系统、以及来自 Nvidia air 的优化拓扑结构。Nvidia air 是一个用于模拟网络逻辑、布局和协议的框架。传统模式下,这项工作通常是在各自独立的部门中完成的。

而 Omniverse 蓝图使我们的工程团队能够并行协作,从而探索各种不同的配置方案,以最大化总体拥有成本 (TCO) 和电能利用率。Nvidia 使用由 CUDA 和 Omniverse 库加速的 Cadence Reality 数字孪生来模拟空气和液体冷却系统,并使用 Schneider Electric 的 eTap (电力系统仿真分析软件) 来模拟电源转换效率和可靠性。实时模拟使我们能够在几秒钟内完成迭代并运行大规模的假设情景,而无需花费数小时的时间。我们利用数字孪生技术向庞大的团队和供应商传达指令,从而减少执行错误,加快项目启动时间。此外,在规划设备改造或系统升级时,我们可以轻松地测试和模拟成本及停机时间,从而确保我们的 AI 工厂能够适应未来的需求。 

这是有史以来第一次有人建造这样的数据中心,真是太美了,各位,我必须要加快速度了,因为我有很多内容要和大家分享。首先,让我们来看一下我们整体的路线图。目前,我们正在全力生产 Blackwell 系列产品,全球各地的计算机公司都在大规模部署这些性能惊人的机器。我感到非常高兴,也十分感谢大家为过渡到这一全新架构所付出的巨大努力。今年下半年,我们将顺利过渡到升级版本——Black Wall Ultra NVLink 72。它的浮点运算能力提升了 1.5 倍,拥有全新的注意力指令集,内存容量也增加了1.5 倍。增加的这些内存对于 KV cache 等应用非常有帮助。它的网络带宽也翻了一番。因此,由于我们采用了相同的底层架构,大家可以非常平滑地过渡到新版本。这就是 Blackwell Ultra,它将在今年下半年正式推出。

2-19

我们之所以如此迅速地推进产品更新,背后是有原因的,这是我所知道的唯一一个产品发布会,在座的每一位都会说“好的,请继续介绍下一个”。事实上,这正是我所期望得到的反应。原因在于,我们正在建设的是 AI 工厂和 AI 基础设施,这需要长达数年的规划。这和购买笔记本电脑不一样,不是那种可以随意支配的开销,而是我们必须提前进行周密规划的。我们必须规划场地、电力供应,准备好资本支出,召集工程师团队,并且需要提前两到三年进行整体布局。这就是为什么我会提前两三年向大家展示我们的路线图,以免我们在五月份突然宣布新产品,让大家感到措手不及。

比如,“下个月我们就要迁移到一个全新的、性能超强的系统”。稍后我会给大家举一个例子来说明。我们计划在未来几年内陆续推出新品,明年将要推出的产品是以一位杰出的天文学家的名字命名的。她的孙辈们今天也来到了现场。她的名字是 Vera Rubin,她发现了暗物质。Vera Rubin 这一产品系列非常了不起,因为它的 CPU 是全新设计的,性能是 Grace 的两倍,拥有更大的内存和带宽,但功耗却只有 50 瓦。这真的是非常了不起。Rubin 采用了全新的 GPU、CX9、全新的网络、smart NIC、NV link 6、全新的 MV link、全新的内存 HBM4。基本上除了机箱之外,所有的组件都是全新的。这样一来,我们就可以在一个方向上大胆地承担技术风险,而不必担心与基础设施相关的其他风险。Vera Rubin MVLink144 将于明年下半年正式推出。

2-20

关于这一点,我之前犯了一个错误,需要大家和我一起来做一个调整。Blackwell 实际上是将两个 GPU 集成在一个 Blackwell 芯片当中。我们之前称其为一个 GPU,但这个说法是不准确的。因为这会影响到 MV link 的命名规则。因此,在不追溯修改 Blackwell 的前提下,从现在开始,当我说 MVLink 144 时,它仅仅表示连接了 144 个 GPU。每一个 GPU 都是一个独立的 GPU 裸片。它们可以被封装在一起,封装的具体方式可能会随时发生变化。每一个 GPU 裸片都是一个独立的 GPU,每一个 MV link 都连接到相应的 GPU。所以,更准确地说,应该是 Rubin NV link 144。这为今年下半年的产品发布奠定了基础。

明年,我们将推出 Rubin Ultra。所以,是 Vera Rubin Ultra。它将于 2027 年下半年问世。它将采用 NVLink 576,实现极致的纵向扩展能力。每个机架的功率为 600 千瓦,包含 250 万个组件。很显然,它还集成了大量的 GPU,所有的参数都得到了大幅提升。它的浮点运算能力是原来的 14 倍,达到了 15 exaflops,而不再是 1 exaflop。正如之前提到的,现在是 15 exaflops。这是纵向扩展的 exaflops。它的带宽高达 4.6 petabytes,也就是每秒 4600 terabytes。这里指的是纵向扩展的带宽,我指的不是聚合带宽,而是纵向扩展的带宽。当然,还有许多全新的 MV link 交换机和 CX9。“ISO 尺寸”意味着它与 Grace Blackwell 具有相同的物理尺寸。现在,让我们更直观地了解一下。这就是它的外观。

2-21

接下来,会非常有意思。各位现在正在部署 Grace Blackwell。我无意冒犯,但这就是 Grace Blackwell 的样子。这就是 Rubin 的样子。它们具有相同的物理尺寸。换句话说,在进行横向扩展之前,必须先进行纵向扩展。然后,再利用我稍后将要展示给大家的这项令人惊叹的技术来进行横向扩展。首先进行纵向扩展,现在大家可以感受到我们的发展速度。这是纵向扩展的浮点运算能力。Hopper 为 1x,Blackwell 为 68x,Rubin 为 900x 纵向扩展的浮点运算能力。如果我把它转换成你们的 TCO (总体拥有成本),也就是功率除以性能,或者说是曲线下方的面积,即浮点运算能力乘以带宽。那么,一个简单的经验法则是,用瓦特数除以这些数字,就可以大致判断你们的 AI 工厂是否取得了进展。大家可以看到,Rubin 将会显著降低总体拥有成本。这就是 Nvidia 的产品路线图,非常紧凑,一年更新一次。

我们如何进行纵向扩展呢?我们推出了 MP Vlink,用于纵向扩展。我们的横向扩展网络是 InfiniBand 和 Spectrum X。很多人都对我们进入以太网领域感到惊讶。我们决定进军以太网的原因在于,如果能够让以太网具备 InfiniBand 的那些优良特性,那么网络本身将会更易于使用和管理。因此,我们决定投资 Spectrum,并将其命名为 Spectrum X。

2-22

我们将拥塞控制、极低延迟以及作为计算结构一部分的大量软件等特性引入其中。通过这些努力,我们使 Spectrum X 具备了令人难以置信的高性能。我们将有史以来最大的单个 GPU 集群通过 Spectrum X 纵向扩展为一个巨型集群,也就是 Colossus。还有很多其他的例子。毫无疑问,Spectrum X 是我们取得的一项巨大成功。我非常兴奋的一个领域是,最大的企业网络公司采用了 Spectrum X,并将其集成到他们自己的产品线中,从而帮助全球的企业转型为 AI 公司。目前,我们拥有 10 万个 CX8 和 CX7。CX8 和 CX9 即将问世。在 Rubin 时代,我们希望将 GPU 的数量横向扩展到数十万个。将 GPU 横向扩展到数十万个的挑战在于,横向扩展的连接,这种连接在纵向扩展上目前主要依赖于铜缆。我们应该尽可能地使用铜缆,大约一到两米的距离。铜缆连接表现非常出色,可靠性高、能效好、成本低。因此,我们在纵向扩展中尽可能多地使用铜缆。

但是,在横向扩展中,数据中心的规模已经相当于一个体育场,我们需要更长距离的连接。这就是硅光子技术的用武之地。硅光子技术目前面临的挑战在于收发器的功耗非常巨大。要实现电信号到光信号的转换,必须经过 SerDes,也就是收发器。而且是多个 SerDes。让我们把画面调出来,这样我就能给大家更清楚地展示一下。首先,我们宣布推出 Nvidia 首个采用共同封装 (Co-packaged optics) 技术的硅光子系统,这是全球首个每秒 1.6 TB 的 CPO。它基于微环谐振器调制器 (MRM) 技术,完全采用我们在 TSMC 的先进工艺技术制造,我们在这个项目上已经合作了一段时间。此外,我们还与一个庞大的技术提供商生态系统展开了紧密合作,共同开发了接下来我将要展示给大家的这项成果。这真是一项令人惊叹的技术。

我们之所以决定投资 MRM,是因为它具有惊人的密度和功率优势,与用于电信领域的 Mach-Zehnder 调制器相比,MRM 具有更高的密度和更低的功耗。当你从一个数据中心连接到另一个数据中心时,或者在我们现在使用的这些收发器中,我们使用的是 Mach-Zehnder 调制器,这是因为之前的密度要求并不高。现在,如果大家看一下这些收发器,这是一个收发器的例子。

2-23

这个收发器的功耗是 30 瓦。请大家记住,30 瓦。如果批量采购,单个的价格是 1000 美元。这是一个插头。这一端是电接口,另一端是光接口。光信号通过黄色的光纤传输进来。你把它插到交换机上,连接的就是电信号。这一端集成了收发器、激光器和 Mach-Zehnder 调制器技术。非常了不起。我们利用它来实现 GPU 到交换机、再到下一个交换机、最终到 GPU 的连接。假设我们有 10 万个 GPU,那么就需要 10 万个这样的收发器,以及另外 10 万个用于交换机之间的连接。另一端则连接到另一个网络接口卡 (NIC)。如果我们有 25 万个 GPU,就需要增加一层交换机。每一个 GPU,假设有 25 万个 GPU,每个 GPU 将配备 6 个收发器,也就是 6 个这样的插头。这 6 个插头将为每个 GPU 增加 180 瓦的功耗,每个 GPU 180 瓦,每个 GPU 6000 美元。那么,问题来了,我们如何扩展到数百万个 GPU 呢?因为如果有一百万个 GPU,乘以 6,那就是 600 万个收发器,再乘以 30 瓦,那就是 180 兆瓦的收发器功耗。它们本身不进行任何计算,仅仅负责信号的传输。

所以,问题是,我们如何才能负担得起如此高的功耗?正如我之前提到的,能源是我们最为宝贵的资源。一切最终都与能源息息相关。因此,这将通过减少 180 兆瓦的功率,来直接限制我们以及我们客户的收入。这就是我们所做的这项了不起的工作——我们发明了世界上第一个 MRM 微环。大家现在看到的就是它的外观。这里有一个小小的波导。看到波导上的那个圆环了吗?这个圆环会产生谐振,从而精确控制波导的反射率,限制和调制通过的光量,通过吸收或者透传来控制光信号。它将连续的激光束转换为数字信号 1 和 0。这就是这项技术的奥秘所在。这项技术,也就是光子 IC,与电子 IC 堆叠在一起,然后再与一组微透镜堆叠,这组微透镜再与光纤阵列堆叠。所有这些组件都是在 TSMC 使用 CoWoS (Chip-on-Wafer-on-Substrate) 技术来制造的,并且采用 CoWoS 封装技术,与众多技术提供商合作完成。最终,它变成了大家现在看到的这个令人惊叹的设备。让我们来看一段关于它的视频。

这真是一个伟大的技术奇迹。它们被集成到这些交换机当中。我们的 InfiniBand 交换机,芯片运行得非常出色。今年下半年,我们将正式推出硅光子交换机。明年下半年,我们将推出 Spectrum X。

2-24

由于我们选择了 MRM,由于我们在过去五年中承担的巨大技术风险,我们已经申请了数百项专利,并且我们已经将这项技术授权给我们的合作伙伴,以便大家都可以大规模制造。现在,我们可以将硅光子技术与共同封装选项完美地结合起来。无需收发器,光纤直接接入我们的交换机,radix 高达 512。大家现在看到的就是 512 个端口。这在以前是根本无法实现的。这为我们扩展到数十万甚至数百万个 GPU 奠定了坚实的基础。这样做的好处,大家可以想象一下,在数据中心里,我们可以节省数十兆瓦的电力。我们假设是 60 兆瓦。6 兆瓦相当于什么?6 兆瓦相当于 10 个 Rubin Ultra 机架。6 兆瓦就是 10 个 Rubin Ultra 机架。60 兆瓦,那可是相当可观的。

这意味着我们可以将相当于 100 个 Rubin Ultra 机架的功率用于部署 Rubins。这就是我们的产品路线图,一年一次,每两年更新一次底层架构,每年推出一个全新的产品系列。每年都会有显著的性能提升,我们会分别在芯片、网络或系统机箱等方面承担一定的技术风险,以便在不断追求这些尖端技术的同时,有力地推动整个行业向前发展。

Vera Rubin,我非常感谢她的孙辈们今天能够来到这里。这是我们对她所做出的杰出贡献表示认可和敬意的绝佳机会。我们的下一代产品将以 Feynman 的名字来命名。好的,以上就是 Nvidia 的产品路线图。接下来,我将和大家分享一下企业级计算方面的一些进展。这一点非常重要。为了将 AI 技术推广到全球的企业,首先,我们需要了解 Nvidia 的另一个重要领域——3D 高斯溅射(Gaussian Splats)的独特魅力。

2-25

为了将 AI 技术全面推广到企业级应用中,我们有必要回顾并牢记一点:AI 和机器学习已经彻底重塑了整个计算体系。从处理器、操作系统到上层应用程序,一切都焕然一新。应用程序的开发方式、编排方式,乃至运行方式,都与以往大不相同。举个例子,数据访问的方式将发生根本性的变革。未来,我们不再需要像过去那样,先精确检索到所需的数据,然后再通过阅读来理解其含义;而是可以像使用 Perplexity 那样,直接提出问题,就能得到答案。未来的企业 IT 也将如此。我们将拥有 AI Agent,它们将成为我们数字化劳动力的重要组成部分。

目前,全球有 10 亿知识工作者,而未来,可能会有 100 亿数字工作者与我们并肩作战。所有的软件工程师都将得到 AI 的辅助,这一点我深信不疑。而且,到今年年底,Nvidia 所有的软件工程师都将实现 AI 辅助。AI Agent 将无处不在。它们的运行模式、企业的应用方式,以及我们对它们的管理方式,都将发生根本性的变化。因此,我们需要一系列全新的计算机。而这,才是 PC 应有的样子。

2-26

高达 20 petaflops 的算力,72 个 CPU 核心,芯片间互联技术,HBM 高带宽内存,以及为 GeForce 显卡预留的 PCI Express 插槽。这款名为 DGX Station 的产品,以及 DGX、Spark 和 DGX Station,将由所有 OEM 厂商提供,包括 HP、Dell、Lenovo 和 ASUS。它将是为全球的数据科学家和研究人员量身打造的。这是属于 AI 时代的计算机,这才是计算机应有的形态,也是计算机未来的发展方向。我们为企业提供了全线产品,从小型的工作站、服务器,到超级计算机,一应俱全。所有合作伙伴都将提供这些产品。此外,我们还将对计算堆栈的其他组成部分进行革新。

计算领域有三大支柱:计算、网络(正如我之前提到的 Spectrum X,一个面向全球企业的 AI 网络),以及存储。储必须进行彻底的重塑。未来的存储系统将不再是基于检索的,而将是基于语义的。因此,存储系统必须能够在后台持续地嵌入信息,将原始数据转化为知识。这样一来,当你需要访问数据时,无需进行检索,只需与之对话,提出问题或任务即可。举个例子,Box 的 Aaron 已经与我们展开合作,在云端部署了一个应用。从本质上讲,这是一个超级智能的存储系统。未来,每个企业都将拥有类似的系统。这就是未来的企业级存储。我们正在与整个存储行业通力合作,包括 DDN、Dell、HP Enterprise、Hitachi、IBM、NetApp、Nutanix、Pure Storage、Vast 和 Weka 等众多杰出的合作伙伴。几乎全球所有的存储厂商都将首次提供这一技术堆栈。未来的存储系统将实现 GPU 加速。

2-27

这是 Michael 准备的幻灯片,是一张非常棒的幻灯片。为什么这么说呢?因为他用一张幻灯片就清晰地阐述了 Dell 将提供全线的 Nvidia Enterprise IT AI 基础设施系统,以及运行其上的所有软件。大家可以看到,我们正在引领一场全球企业界的革新。

今天,我们还发布了一个功能强大的模型,每个人都可以运行。之前,我向大家展示了 R1,一个具备推理能力的模型。我还将它与不具备推理能力的模型 Llama 3 进行了对比,显然 R1 要智能得多。但是,我们还可以做得更好,让任何公司都能为企业级应用做好充分准备。现在,作为我们 NIMS 系统的一部分,R1 已经完全开源。大家可以下载并在任何平台上运行,包括 DGX Spark、DGX Station、任何 OEM 厂商制造的服务器、云端,还可以将其集成到任何 Agentic AI 框架中。我们正在与全球众多公司展开合作,接下来,我将快速地展示其中的一部分,请大家仔细观看。

现场有很多我们的重要合作伙伴,我想在这里特别介绍一下 Accenture。Julie Sweet 和她的团队正在构建 AI 工厂和 AI 框架。还有 Amdocs,它是全球最大的电信软件公司。以及 ATT,John Stankey 和他的团队正在构建 ATT 的 Agentic AI 系统。Larry Fink 和 Blackrock 团队也在构建他们自己的系统。还有 Andy Rude。未来,我们不仅要招聘ASIC设计师,还要从 Cadence Design Systems(CEO为Anirudh Devgan)聘请大批数字ASIC设计师。Cadence正在构建其AI框架,集成NVIDIA的模型(如NeMo)、NVIDIA NIM(推理微服务)以及 CUDA加速库(如cuDNN),支持本地和云端部署。Capital One,作为在技术应用方面最为领先的金融服务公司之一,已经全面采用了 Nvidia 的技术。Deloitte 的 Jason 及其团队, Eni的Janet及其团队,NASA 的 Adina 及其团队,都在将 Nvidia 的技术集成到他们各自的 AI 框架中。此外,还有 Christian 和他在 SAP 的团队,Bill McDermott 和他在 ServiceNow 的团队。

接下来,让我们转换一下话题,来谈一谈机器人技术。现在,是时候讨论机器人了。机器人时代已经到来。机器人最大的优势在于,它们能够与物理世界进行交互,做到数字信息无法做到的事情。我们都清楚地认识到,全球正面临着严重的劳动力短缺问题。预计到 2030 年,全球劳动力缺口将至少达到 5000 万。我们当然非常乐意为每个人提供 5 万美元的年薪。但相应的,我们可能也需要每年支付 5 万美元给机器人。

因此,这将是一个规模极为庞大的产业。机器人系统的种类繁多。未来的基础设施都将是机器人化的。仓库和工厂中将部署数以十亿计的摄像头。全球范围内,有 1000 万到 2000 万家工厂。正如我之前提到的,每一辆汽车都已经是一个机器人。而现在,我们正在致力于开发通用机器人。接下来,我将向大家展示我们的进展。

2-28

所有运动的物体都将实现自主化。物理 AI 将赋能各行各业的各类机器人。Nvidia 构建的三台计算机,实现了机器人 AI 的模拟、训练、测试以及真实世界经验的持续循环。训练机器人需要海量的数据。互联网规模的数据能够提供常识和推理能力,但机器人还需要动作和控制数据,而这些数据的获取成本往往很高。借助基于 Nvidia、Omniverse 和 Cosmos 构建的蓝图,开发人员可以生成大量多样化的合成数据,用于训练机器人的行为策略。首先,在 Omniverse 中,开发人员可以根据不同的领域、机器人类型和任务需求,聚合来自真实世界的传感器数据或演示数据。

然后,利用 Omniverse 对 Cosmos 进行调节,将原始采集的数据倍增,生成海量且逼真的多样化数据。开发人员可以使用 Isaac Lab,利用这些增强的数据集对机器人的行为策略进行后期训练。通过模仿学习来克隆行为,或者通过强化学习和 AI 反馈进行试错,让机器人学习新的技能。需要注意的是,实验室的训练环境与真实世界是存在差异的。因此,新的行为策略还需要经过现场测试。开发人员可以利用 Omniverse 进行软硬件在环测试,在具有真实世界环境动态的数字孪生环境中模拟机器人的行为策略,并进行域随机化、物理反馈以及高频传感器模拟。在真实世界的应用场景中,往往需要多个机器人协同工作。Mega 是一个 Omniverse 蓝图,它支持开发人员对经过后期训练的行为策略进行大规模测试。

例如,富士康就在一个虚拟的 Nvidia Blackwell 生产设施中,对各种不同类型的机器人进行了测试。当机器人的“大脑”执行任务时,它们会通过传感器模拟来感知行动的结果,然后规划下一步的行动。Mega 允许开发人员测试多种机器人的行为策略,使机器人能够作为一个系统协同工作,无论是进行空间推理、导航、移动,还是执行灵巧的操作。许多令人惊叹的成果都诞生于模拟之中。今天,我们非常高兴地推出 Nvidia Isaac Groot N1。Groot N1 是一个用于人形机器人的通用基础模型。它建立在合成数据生成和机器学习的基础之上。在模拟环境中,Groot N1 采用了一种双系统架构,以实现快速和慢速的思考模式,其灵感来源于人类认知过程的原理。慢速思考系统使机器人能够感知和推理周围的环境以及接收到的指令,并规划出正确的行动方案

而快速思考系统则负责将这些规划转化为精确且连续的机器人动作。Groot N1 强大的泛化能力,使得机器人能够轻松地操控常见的物体,并协同执行多步骤的任务。借助这一整套包含合成数据生成和机器人学习的完整流程,人形机器人的开发者们可以在全球多个不同的环境中,对 Groot N1 进行跨多种形态和任务的后期训练。各行各业的开发者们都在利用 Nvidia 的这三台计算机,来构建下一代的具身 AI。

物理 AI 和机器人技术的发展日新月异,请大家务必密切关注这一领域。它极有可能发展成为规模最大的产业。从本质上讲,我们所面临的挑战是相同的。正如我之前提到的,我们主要关注三个方面,而且这些方面是系统性的:第一,如何解决数据问题?如何以及在哪里生成训练 AI 所需的数据?第二,模型架构应该是什么样的?第三,Scaling Law 是什么?我们应该如何扩展数据、算力,或者两者兼顾,从而让 AI 变得越来越智能?如何实现这种扩展?这些基本问题同样存在于机器人领域。

在机器人领域,我们创建了一个名为 Omniverse 的系统,它是我们用于物理 AI 的操作系统。大家可能已经听我介绍 Omniverse 很长时间了。这次,我们又新增了两项关键技术。今天,我将向大家展示两项重要的成果。其中之一是,我们可以利用具备生成能力,并且能够理解物理世界的生成模型,来扩展 AI。我们将这个模型称为 Cosmos。我们利用 Omniverse 来对 Cosmos 进行调节,并利用 Cosmos 来生成无限数量的环境。这些环境使我们能够创建出有依据、受我们控制,同时又具备系统无限性的数据。正如大家所看到的,在 Omniverse 中,我们用鲜艳的色彩来展示对场景中机器人的完美控制,而 Cosmos 则可以创建出所有这些虚拟环境。

2-29

第二项重要成果,正如我们之前所讨论的,当今语言模型的一项关键扩展能力就是强化学习。可验证的奖励至关重要。那么,问题来了,在机器人技术中,什么是可验证的奖励呢?正如我们所熟知的,答案就是物理定律,即可验证的物理奖励。因此,我们需要一个性能强大的物理引擎。目前,大多数物理引擎的设计都有其特定的应用场景,它们可能是为大型机械设计的,也可能是为虚拟世界、电子游戏等设计的。但是,我们需要的是一个专为精细的刚体和柔性体设计的物理引擎,它能够支持触觉反馈、精细运动技能以及执行器控制的训练。我们还需要它具备 GPU 加速能力,从而使得这些虚拟世界能够以超线性时间运行,实现超实时的效果,并且能够以极快的速度训练 AI 模型。此外,我们还需要将它无缝集成到一个全球机器人专家都在使用的框架中,也就是MuJoCo。因此,今天,我们非常荣幸地宣布一项意义非凡的合作。DeepMind、Disney Research 和 Nvidia 这三家公司将携手合作,共同打造一个全新的项目。我们将它命名为 Newton。让我们一起来了解一下 Newton物理引擎。

2-30

我们还有一个激动人心的好消息要宣布。我之前就说过,我们的机器人技术一直在突飞猛进。今天,我们正式宣布 Groot N1 开源!感谢各位的光临。

2-31

让我们来做一个总结。感谢大家参加本次 GTC 大会。我们讨论了几个重要方面。首先,Blackwell 已经全面投产,并且正在迅速扩大生产规模。客户的需求非常旺盛,这是理所当然的。因为 AI 领域正处于一个关键的拐点。由于推理 AI 以及推理 AI 和 Agentic AI的训练需求,我们需要进行的 AI 计算量大幅增加。其次,配备了 Dynamo 技术的 Blackwell NV Link 72,其 AI 工厂的性能是 Hopper 的 40 倍。随着 AI 技术的不断发展和规模化应用,推理将成为未来十年最重要的工作负载之一。第三,我们已经制定了年度技术路线图,方便大家规划各自的 AI 基础设施。目前,我们拥有三大 AI 基础设施:面向云计算的 AI 基础设施、面向企业的 AI 基础设施,以及面向机器人的 AI 基础设施。最后,我们还有一个惊喜要带给大家,请观看视频。谢谢大家!感谢所有促成这段视频的合作伙伴,感谢所有为这段视频的制作做出贡献的人。祝大家在 GTC 期间收获满满。谢谢大家!

【AI算力产业讨论社群|仅限受邀加入】

席位锁定中:AI算力领域TOP级从业者专属圈层

√  与头部算力企业深度对话

√  获取一手全球AI与算力产业信息

√  获取AI算力产业独家信息

√  随时了解智算中心项目动态

√  有机会参与主题AI与算力产业交流活动

扫码验证身份(需备注姓名/公司/职务)

注:每满200人关闭入口

IDC李融

不止是 DeepSeek,更是 AI 算力产业的未来!

算力产业内刊pro

宣布推出“AI工厂的操作系统”NvidiaDynamo,用于加速和扩展AI工厂中的推理模型;为支持AI工厂扩展到数百万个GPU,还推出了首个采用共同封装光学(CPO)技术的硅光子系统等。

2-1

北京时间3月19日凌晨,英伟达创始人兼CEO黄仁勋发表GTC 2025主题演讲。黄仁勋宣布了一系列重磅发布,展示了英伟达在加速计算和AI领域的最新进展和未来布局。

黄仁勋指出,AI处于一个关键的转折点,推理和Agentic AI的需求推动了计算量的激增。他还预测到2030年,数据中心的建设规模将达到一万亿美元;未来有工厂的企业将会有两个工厂:一个用于生产实际产品,另一个是AI工厂。

大会现场,黄仁勋宣布Blackwell平台已全面投产,在特定推理模型测试场景下,Blackwell的性能最高可达Hopper的40倍。今年下半年将推出的Blackwell Ultra,还透露了下一代 NVIDIA Rubin Ultra GPU 和 NVIDIA Vera CPU 架构的细节。

此外,宣布推出“AI工厂的操作系统”Nvidia Dynamo,用于加速和扩展AI工厂中的推理模型;为支持AI工厂扩展到数百万个GPU,还推出了首个采用共同封装光学(CPO)技术的硅光子系统等。

Nvidia Dynamo 是一款开源的 AI 推理服务软件,专为加速和扩展 AI 工厂中的 AI 推理模型而设计。它通过高效地编排和协调大量 GPU 上的 AI 推理请求,确保 AI 工厂以最低成本运行,同时最大化 token 收入。

据IDC圈不完全统计,当前国内拟建、在建智算中心约有600座左右(详情参考:600+智算项目450+未投产,DeepSeek对IDC产业9大冲击|算力产业核心内刊)。Nvidia Dynamo发布之后,将对这些项目的下一步部署和运营带来极大影响。黄仁勋还宣布通用汽车将采用NVIDIA AI、模拟和加速计算技术来开发下一代汽车、工厂和机器人。在机器人方面,英伟达还发布了Omniverse(物理AI的操作系统)、新一代世界基础模型Cosmos、Newton(与DeepMind和Disney Research合作开发的物理引擎)以及人形机器人的通用基础模型Isaac Groot N1并开源。

以下是GTC2025黄仁勋演讲全文实录

经数字开物团队编译整理

欢迎来到GTC!今年真是太棒了。我们Nvidia一直想把GTC办好,所以,今天我们用AI的魔法,带大家到Nvidia总部逛一逛。猜猜这是哪儿?这就是我们平时工作的地方!真是精彩的一年。我们有很多超酷的事情要和大家分享。先说好,我可是完全即兴发挥,没有稿子,也没有提词器,不过我要讲的东西可不少。咱们这就开始吧!

首先,我要感谢所有的赞助商,感谢所有参与这次大会的嘉宾们。几乎各行各业都有代表参加。医疗、交通、零售,还有计算机行业,计算机行业的各位都来了。见到大家真是太好了,感谢你们的赞助。

GTC最早是从GeForce开始的。一切都源于GeForce。今天我手上拿的是GeForce5090。你敢信吗,我们开始做GeForce已经25年了,现在GeForce在全世界都卖断货了。这是5090,采用Blackwell架构。跟4090比,体积小了30%,散热效果好了30%,性能更是难以置信,甚至难以比较,这都得归功于AI。

GeForce把CUDA带给了全世界,CUDA又让AI成为可能。现在,AI反过来又彻底改变了计算机图形学。你们现在看到的可是实时的计算机图形,100%路径追踪。每渲染一个像素,AI就能预测出另外15个。想想看,我们用数学方法渲染一个像素,AI就能推算出另外15个!而且,它还必须算得特别准,这样图像才好看,而且还得保证时序稳定,也就是说,一帧一帧地看,不管是往前还是往后,因为这是计算机图形,所以它得一直保持稳定。

2-2

太不可思议了,AI这些年进步太大了。虽然也就10年时间。我们讨论AI的时间可能更长一些。但AI真正火起来,也就是十年前的事。一开始是感知AI,比如计算机视觉、语音识别,后来就是生成式AI。过去五年,我们主要关注生成式AI,教AI怎么把一种形式的东西转换成另一种形式。文本变图像,图像变文本,文本变视频,氨基酸变蛋白质,属性变化学物质。我们能用AI生成各种各样的东西。

生成式AI彻底改变了计算机的工作方式,从原来的检索式计算模型,变成了现在的生成式计算模型。以前,我们做的基本上都是预先创建好内容,存好几个版本,用的时候再挑一个合适的。现在,AI能理解你说的是什么,明白你的意思,知道你要干什么,然后直接生成你需要的东西。有需要的话,它还会自己去找资料,加深理解,然后给你生成答案。它不再是简单地找数据,而是直接生成答案。这可是计算方式的根本性变革,计算机的每一层都变了。

过去几年,特别是最近两三年,AI领域有了重大突破。这是AI的根本性进步。我们管它叫基于智能体的AI(Agentic AI)。Agentic AI基本上意味着AI有了自己的“代理”,能自己干活了。它能感知周围的环境,理解发生了什么。它能推理,更厉害的是,它能琢磨怎么回答问题,怎么解决问题。它能规划行动,并付诸实践。它还能用各种工具,因为它现在能理解各种各样的信息,也就是多模态信息。它能上网,看网页的布局、文字、视频,甚至还能看视频学习,理解了之后,再用这些新学到的知识来完成任务。

Agentic AI的核心,当然是一种全新的能力——推理。而且,下一波浪潮已经来了。今天我们会好好聊聊这个。这就是机器人技术(Robotics),它是由物理AI(physical AI)来驱动的。物理AI就是能理解现实世界的AI,它懂摩擦力、惯性、因果关系、物体恒存性这些东西。比方说,一个东西挪到墙角后面了,AI知道它还在那儿,只是看不见了。所以说,这种理解现实世界、理解三维世界的能力,会开启一个AI的新时代,我们叫它物理AI,它会让机器人技术更上一层楼。

2-3

每一个阶段,每一波浪潮,都给我们大家带来了新的赚钱机会。也给GTC带来了更多新的合作伙伴。所以,GTC现在都快挤爆了。要想让更多人来GTC,唯一的办法就是把圣何塞给扩建了。我们正在努力,我们有的是地。圣何塞,你可得加油发展,这样我们才能把GTC办得更大更好。说真的,我站在这儿,真希望你们也能看到我看到的。我们现在就在一个体育场的正中间。去年是咱们恢复线下活动的第一年。当时就跟摇滚音乐会似的。有人说GTC是AI界的伍德斯托克音乐节。今年呢,又有人说它是AI界的超级碗。唯一的区别就是,在这个超级碗里,大家都是赢家!所以,每年都有越来越多的人来,因为AI能给越来越多的行业、越来越多的公司解决更多更有意思的问题。今年,要好好聊聊Agentic AI和物理AI的核心。

那么,到底是什么推动了AI的每一波浪潮和每一个阶段呢?这里面有三个关键。

首先是怎么解决数据的问题。这一点很重要,因为AI是一种数据驱动的计算机科学方法。它得从数据里学习,从数字化的经验里学习,才能学到知识,积累经验。那么,怎么解决数据问题呢?第二个问题是,怎么才能在没有人工干预的情况下训练AI?“人工干预”这事儿挺麻烦的,因为咱们的时间有限,我们又希望AI能学得飞快,比人快得多,而且能学得特别多,多到人根本跟不上。所以,第二个问题就是,怎么训练模型?

第三个问题是,怎么才能让AI规模化,不断扩展?如何创造、如何找到一种算法,使得你提供的资源越多(无论是什么样的资源),AI就变得越聪明。这就是Scaling Law。然而,在过去的一年里,几乎全世界都对此产生了误判。计算需求,也就是AI的Scaling Law,其韧性远超预期,实际上呈现出超加速增长的态势。由于Agentic AI,由于推理能力的引入,我们现在所需的计算量,比去年同期我们的预期高出了100倍。让我们来分析一下这背后的原因。

首先,让我们从AI能够做什么入手,然后反向推导。正如我之前提到的,Agentic AI的基础实际上是推理能力。我们现在所拥有的AI能够进行推理,这意味着它们可以将一个问题逐步分解。也许,它会尝试几种不同的方法来解决问题,然后选择最佳答案。又或许,它会用多种方式来解决同一个问题,以确保得到一致的最佳答案。这被称为一致性检查。再或者,在得出答案之后,它会把答案代入到原始的方程式中——例如一个二次方程式——来验证答案是否正确,而不是简单地、一次性地给出结果。还记得两年前我们刚开始使用ChatGPT的时候吗?尽管它是一个奇迹,但许多复杂的问题,甚至是许多简单的问题,它都无法给出正确的答案。这是可以理解的。它只是进行了一次尝试。基于它通过学习预训练数据所获得的知识,基于它从其它经验、预训练数据中所看到的内容,它会像一个学者一样,一次性地给出答案。但现在,我们拥有的AI能够一步一步地进行推理,这得益于一系列的技术,如思维链、一致性检查,以及各种不同的路径规划等技术。现在,我们拥有的AI能够推理,能够将问题分解,一步一步地进行推理。

可以想象,这样一来,我们生成的Token数量,虽然AI的基础技术仍然是相同的——生成下一个Token,预测下一个Token,但现在的下一个Token构成了第一步,然后是下一个Token,在它生成第一步之后,第一步会再次作为输入,让AI生成第二步、第三步和第四步。所以,它不再是简单地生成一个Token或一个单词,而是生成一系列的单词,这些单词代表着推理的一个步骤。因此,生成的Token数量大幅增加。稍后我会给你们展示具体的数据,现在可以轻松达到100倍的增长。增长了100倍。这意味着什么呢?这意味着,它可以生成100倍的Token。

正如我之前解释的,这种情况可能会发生,或者是因为模型变得更加复杂,从而生成10倍的Token。而为了保持模型的响应速度和交互性,避免我们因为等待AI思考而失去耐心,我们现在必须将计算速度提升10倍。因此,10倍的Token,10倍的速度。我们所需要的计算量很容易就达到了100倍。所以,你们会在接下来的演示中看到这一点。

2-4

现在,我们进行推理所需的计算量比过去要大得多。那么,接下来的问题就是,我们如何教会AI完成我刚才所描述的任务,如何执行这个思维链?一种方法是,你必须教会AI如何推理。正如我之前在关于训练的部分提到的,我们需要解决两个基本问题。数据从何而来?以及我们如何避免受到“人工干预”的限制?因为我们能够提供的数据和进行的演示是有限的。而这正是过去几年里取得的重大突破。强化学习,以及可验证的结果。

本质上,这是对AI的一种强化学习,当它尝试解决一个问题时,一步一步地进行。在人类历史上,我们已经解决了许多问题,并且知道这些问题的答案。我们知道二次方程的公式以及如何求解。我们知道如何求解勾股定理,知道直角三角形的规则。我们知道许多数学、几何、逻辑和科学方面的规则。我们有一些益智游戏,我们可以给AI设置一些约束条件,比如数独之类的游戏,等等。我们有数百个这样的问题空间,我们可以生成数百万个不同的例子,让AI有成百上千次的机会逐步解决问题,同时,我们使用强化学习来奖励那些表现越来越好的AI。因此,综合来看,我们有数百个不同的主题,数百万个不同的例子,数百次的尝试,每一次尝试都会产生数万个Token。把所有这些加在一起,就是为了训练模型而产生的数万亿个Token。现在,借助强化学习,我们有能力生成海量的Token,还有合成数据生成,其实就是使用一种类似于机器人的方法来训练AI。这两项技术的结合,给整个行业带来了巨大的计算挑战。你们可以看到,整个行业正在积极应对。

接下来我要向你们展示的是Hopper的出货量,来自前四大云服务提供商(CSP)。这四大云服务提供商拥有公有云,分别是Amazon、Azure、GCP和OCI。这前四大云服务商,注意,这里面并不包括AI公司,也不包括所有的初创公司和企业。有很多都没有包括在内,仅仅是这四家。这只是为了让你们对Hopper的出货高峰年份以及Blackwell的第一年有一个大致的了解。

2-5

你们可以看到,事实上,AI正在经历一个拐点。它变得更加有用,因为它变得更聪明了。它能够进行推理,因此它的应用也更加广泛。从一个现象就可以看出它的应用越来越广泛:现在每当你使用ChatGPT的时候,似乎等待的时间越来越长了,但这其实是一件好事。这说明有很多人都在有效地使用它。而训练这些模型以及进行推理所需的计算量,都出现了巨大的增长。所以,仅仅在一年之内(Blackwell才刚刚开始发货),你们就可以看到AI基础设施的惊人增长。与此同时,整个计算领域也反映了这一点。我们现在看到的情况是一直到这个十年的结束,到2030年,我预计数据中心的建设规模将达到一万亿美元。我相当肯定,我们很快就会达到这个数字。

2-6

(紫色部分代表分析师对全球数据中心(包括云服务提供商和企业等)资本支出增长的预测)

有两种趋势同时发生。第一种趋势是,绝大部分的增长可能会被加速。绝大部分的增长可能会被加速。这意味着我们早就知道了,通用计算这条路已经走到头了,我们需要一种新的计算方法。整个世界正在经历一场平台级的转变,从原来在通用计算机上跑的手工编写的软件,转向在加速器和GPU上跑的机器学习软件。这种计算方式,可以说,已经越过了那个关键的转折点。现在,我们能看到拐点正在出现,全球的数据中心建设正在发生巨变。所以,第一件事,就是我们的计算方式变了。

第二个是越来越多的人意识到,未来的软件是需要真金白银的投入的。这是一个非常重要的概念。在过去,我们写好软件,然后在计算机上运行就完事了。但未来不一样了,计算机会为软件生成Token。这样一来,计算机就成了Token的生成器,而不是简单的文件检索器。从基于检索的计算到生成式计算,从老一套的数据中心模式,到构建这些新型基础设施,我把它们叫做AI工厂。它们就是AI工厂,因为它们只干一件事,那就是生成这些特别厉害的Token,然后我们再把这些Token重新组合成音乐、文字、视频、研究成果、化学品或者蛋白质,等等。我们把它转化成各种各样的信息。

所以,整个世界正在经历一场变革,不仅仅是信息量、要建设的数据中心数量在变,连怎么建设的方式都在变。数据中心里,所有的东西都会被加速,但不一定都是AI。关于这一点,我想多说几句。这张幻灯片,是我个人的最爱。为什么这么说呢?因为这么多年来,你们一直都来参加GTC,一直听我在这里讲这些库。实际上,这就是GTC的核心所在,浓缩在这一张幻灯片里。

2-7

不夸张地说,很久以前,20年前,我们就只有这一张幻灯片。一个库接着一个库,不断地增加。你不能光去加速软件本身。这就好比,我们需要一个AI框架来创造AI,然后我们去加速这个AI框架。同样的道理,你也需要物理学、生物学、多物理场,以及各种各样的量子物理学的框架。你需要各种各样的库和框架。我们把它们叫做CUDA X库,它们是各个科学领域的加速框架。第一个要介绍的库非常厉害,NumPy是全世界下载量最大、使用最广泛的Python库,去年一年就被下载了4亿次。CuLitho,是一个计算光刻库。经过四年多的努力,我们现在已经掌握了处理光刻的整个流程,也就是计算光刻,这是晶圆厂里的第二个工厂。一个是制造晶圆的工厂,另一个是制造用于生产晶圆的信息的工厂。

每个行业,每个拥有工厂的公司,未来都会有两个工厂。一个是负责生产实际产品的工厂,另一个是负责进行数学计算的工厂。AI工厂,汽车工厂,汽车的AI工厂,智能音箱工厂,还有智能音箱的AI工厂。CuLitho就是我们的计算光刻。台积电、三星、ASML,以及我们的合作伙伴Synopsys、Mentor,都给予了我们极大的支持。我认为,这个领域现在正处在一个关键的转折点,再过五年,每一个光刻过程,都将在Nvidia的平台上进行处理。Cuda Arial是我们的5G库。把GPU变成5G无线电设备,这有什么不可以呢?信号处理可是我们的强项。一旦我们搞定了这个,我们就能在它的基础上叠加AI。也就是用于RAN的AI,或者我们叫它AI RAN。下一代的无线电网络,一定会深度嵌入AI。为什么我们现在会被信息论限制住呢?因为我们能获得的频谱资源就那么多。但是,如果我们加上AI,情况就完全不同了。Cu OPT是数值优化,或者叫数学优化。几乎每个行业都会用到它,比如你安排航班座位、管理库存和客户、协调工人和工厂、调度司机和乘客等等,总之就是会遇到各种各样的约束条件。大量的约束,大量的变量,你需要对时间、利润、服务质量、资源利用率等等进行优化。

Nvidia就用它来管理我们的供应链。Cu OPT是一个非常强大的库。它能把原本需要几个小时才能完成的任务,缩短到几秒钟。这有什么意义呢?这意味着我们现在可以探索一个大的多的解空间。我们已经宣布,将会开源Cu OPT。现在,几乎所有人都在用Gurobi或者IBM、CPLEX或者FICO。

我们正在和这三家公司紧密合作。整个行业都非常兴奋。我们即将为这个行业带来巨大的加速。Parabricks是用于基因测序和基因分析的。MONAI是全球领先的医学成像库。Earth2是用于预测高分辨率局部天气的多物理场仿真库。CuQantum和Cuda Q,我们将在GTC上举办我们的第一个量子计算日。我们正在和这个生态系统里的几乎所有人合作,要么帮助他们研究量子架构、量子算法,要么一起构建经典的加速量子异构架构。所以,这方面的工作非常令人兴奋。cuTENS0R和相关量子化学加速库是用于张量收缩和量子化学的。当然了,这个技术栈是世界闻名的。很多人以为只有一个叫做CUDA的软件,但实际上,在CUDA之上,有一整套的库,这些库被集成到了整个生态系统、软件和基础设施的方方面面,这样才能让AI成为可能。

今天,我还要宣布一个新的成员:cuDss,我们的稀疏求解器。这对于CAE(计算机辅助工程)来说至关重要。这是过去一年里发生的最重要的事情之一。通过与Cadence、Synopsys、Ansys、Dassault,以及所有这些系统公司的合作,我们现在已经让几乎所有重要的EDA(电子设计自动化)和CAE库都实现了加速。说出来你们可能不信,直到最近,Nvidia还一直使用通用计算机,运行着速度非常慢的软件,来为其他人设计加速计算机。原因就在于,我们之前一直没有针对CUDA进行优化的软件。所以,现在随着我们转向加速计算,我们的整个行业都将迎来一次巨大的飞跃。CuDf,是用于处理结构化数据的数据框。我们现在已经实现了对Spark和Pandas的嵌入式加速。真是太棒了,然后,我们还有Warp,这是一个用Python编写的物理库,是专门为CUDA打造的Python物理库。关于这个,我们有一个重要的消息要宣布,我先卖个关子,稍后再说。

这里展示的只是一小部分能够实现加速计算的库。绝不仅仅只有CUDA。我们为CUDA感到无比自豪,但如果没有CUDA,没有我们如此庞大的用户基础,这些库也不会被这么多的开发者所使用。对于所有使用这些库的开发者来说,你们之所以使用它,首先是因为它能给你们带来难以置信的加速,能让你们实现难以置信的规模扩展;其次,是因为CUDA的用户基础现在无处不在。它存在于每一个云平台,每一个数据中心,全世界每一家计算机公司都在提供它。毫不夸张地说,它无处不在。所以,通过使用这些库中的任何一个,你的软件,你那些优秀的软件,就能触及到每一个人。因此,我们现在已经到达了加速计算的转折点。CUDA让这一切成为可能。而你们在座的每一位,这就是GTC的意义所在,整个生态系统,是你们所有人让这一切成为可能。所以,我们为你们准备了一个小短片。谢谢大家。

向所有的创造者、先行者、未来的建设者们致敬!CUDA为你们而生。自2006年以来,全球超过200个国家和地区的600万开发者使用了CUDA,并彻底改变了计算领域。凭借着900多个CUDA X库和AI模型,你们正在加速科学的进步,重塑各行各业,并赋予机器视觉、学习和推理的能力。现在,Nvidia Blackwell的速度比第一代CUDA GPU快了5万倍。这种数量级的速度提升,以及规模的扩展,正在不断缩小模拟与现实之间的差距。数字孪生(DigitalTwins)。而对于你们来说,这仅仅是一个开始。我们迫不及待地想看到你们接下来的行动。

我热爱我们的工作。我更热爱你们用它所创造的一切。在我这33年的职业生涯中,最让我感动的一件事,是一位科学家对我说:“Jensen,因为这项工作,因为你的工作,我终于可以在有生之年完成我毕生的事业了。”老天,如果这都不能打动你,那你可真是太麻木了。所以,这一切都是为了你们。谢谢大家。

我们继续来聊聊AI。AI最初是在云端发展起来的,这是有原因的。因为事实证明,AI需要基础设施。它是机器学习。既然这门科学叫做机器学习,那你就需要一台机器来进行科学研究。所以,机器学习需要基础设施。而云数据中心恰恰拥有基础设施。他们还拥有非常强大的计算机科学和卓越的研究实力。这是AI在云端和云服务提供商那里蓬勃发展的绝佳条件。但这并不是AI的终点。AI将会无处不在。我们将从多个角度来探讨AI。当然了,云服务提供商都喜欢我们的尖端技术。他们喜欢我们拥有全栈的技术体系,因为正如我之前解释过的,加速计算不仅仅是芯片的事情。甚至不仅仅是芯片、库和编程模型,而是芯片、编程模型,以及构建在它们之上的一整套软件。

整个技术栈是非常复杂的。每一层,每一个库,基本上都类似于SQL。SQL,被称为存储计算。它是IBM在计算领域掀起的一场重大革命。SQL仅仅是一个库。大家可以想象一下,我刚才给你们展示了一大堆库,而在AI领域,还有更多。所以,这个技术栈是非常复杂的。云服务提供商也喜欢Nvidia CUDA的开发者同时也是他们的客户,因为归根结底,他们是在为全世界构建基础设施。所以,一个繁荣的开发者生态系统是非常有价值的,也是备受赞赏的。现在,我们要把AI推广到世界各地,而世界各地的情况千差万别,系统配置不同、操作环境不同、特定领域的库不同,使用方式也不同。

所以,当AI应用到企业中,IT应用到制造业、机器人技术或者自动驾驶汽车领域,甚至应用到那些刚刚起步的GPU云公司时,有很多这样的公司,大概有20家,它们都是在Nvidia时代创立的。他们只做一件事,那就是托管GPU,他们把自己叫做GPU云。我们的一个重要合作伙伴Core Weave正在准备上市,我们为他们感到非常骄傲。所以,GPU云有他们自身的需求。但其中一个让我非常感兴趣的领域是边缘计算。

2-8

今天,我们宣布,Cisco、Nvidia、T-Mobile,这家全球最大的电信公司,以及Cerberus ODC,将要为美国的无线电网络构建一个全栈的技术体系。这将是第二个技术栈。所以,我们今天宣布的这个技术栈,将会把AI引入到边缘计算领域。大家要记住,全球每年有1000亿美元的资本投资于无线电网络和所有用于未来通信的数据中心,毫无疑问,这些投资都将转向采用融入了AI的加速计算。AI肯定能在调整无线电信号、大规模MIMO,使之适应不断变化的环境和交通状况方面,做得更好。当然,我们会利用强化学习来实现这一点。MIMO本质上就是一个巨大的无线电机器人。这是毋庸置疑的。所以,我们当然会提供这些能力。AI无疑会给通信领域带来革命性的变化。大家想想,平时我给家里打电话的时候,不用多说什么,就几个字,因为我妻子知道我在哪儿工作,工作状态怎么样,我们的话题可以接着昨天继续聊,她大概也记得我喜欢什么、不喜欢什么,通常只需要几个字,就能表达很多信息。之所以这样,是因为存在着上下文,以及人类的先验知识。如果把这些能力结合起来,就能给通信领域带来翻天覆地的变化。看看它在视频处理方面所取得的成就。再看看我刚才所描述的3D图形。所以,我们当然也会在边缘计算领域做同样的事情。

因此,我对我们今天宣布的消息感到非常兴奋。T-Mobile、Cisco、Nvidia、Cerberus、ODC将会一起构建一个全栈的技术体系。AI将会进入到各行各业。这仅仅是其中之一。AI最早进入的领域之一就是自动驾驶汽车。当年我第一次看到Alexnet的时候,我们已经在计算机视觉领域耕耘了很长时间。看到Alexnet的那一刻,真是令人振奋,非常激动人心。这促使我们下定决心,要全力以赴地投入到自动驾驶汽车的研发中。所以,我们从事自动驾驶汽车的研发已经有十多年了,我们开发的技术几乎每一家自动驾驶汽车公司都在使用。这些技术可能应用在数据中心里。例如,特斯拉在数据中心里使用了大量的Nvidia GPU。也可能应用在数据中心或者汽车里。Waymo和Zoox在数据中心和汽车里都使用了我们的计算机。也可能仅仅应用在汽车里。这种情况比较少见,但有时候确实只应用在汽车里,或者他们会使用我们的所有软件。

此外,我们和汽车行业也有合作。更准确地说,汽车行业希望和我们合作。我们打造了三种计算机:训练计算机、模拟计算机和机器人计算机,也就是自动驾驶汽车的计算机。还有运行在这些计算机之上的所有软件、模型和算法。这和我之前展示的其他所有行业的情况是一样的。

今天,我非常高兴地宣布,通用汽车选择了Nvidia作为合作伙伴,一起来打造他们未来的自动驾驶汽车车队。自动驾驶汽车的时代已经到来了,我们期待着与通用汽车在三个领域展开AI方面的合作:制造领域的AI,用来革新他们的制造方式;企业级AI,用来革新他们的工作方式、汽车设计和汽车模拟;以及车内AI。为通用汽车构建AI基础设施,与通用汽车携手合作,共同打造他们的AI。

2-9

我对此感到非常兴奋。有一个领域我感到非常自豪,但很少有人关注到,那就是汽车安全,我们称之为Halos。安全这项工作,需要从芯片到整个系统的全方位技术。系统软件、算法、方法论,从多样性到确保多样性、监控、透明度、可解释性等等,所有这些不同的理念都必须深深地融入到你开发系统和软件的每一个环节。我相信,我们是全球第一家对每一行代码都进行安全评估的公司。七百万行代码都经过了安全评估。我们的芯片、我们的系统、我们的系统软件,以及我们的算法,都经过了第三方的安全评估,他们会逐行检查代码,以确保其设计能够保证多样性、透明度和可解释性。我们还申请了1000多项专利,在这次GTC期间,我强烈建议大家去参加Halos的研讨会,亲眼看看所有这些技术是如何融合在一起,来确保未来的汽车既安全又能够实现自动驾驶的。这是我感到非常自豪的一件事情。但很少有人关注到这一点,所以这次我想多花点时间来聊聊这个话题。好的,Nvidia Halos。你们都见过汽车自动驾驶的场景。Waymo的无人驾驶出租车非常棒。但是,我们制作了一段视频,想和大家分享一下我们用来解决数据、训练和多样性问题的一些技术,这样我们就可以利用AI的魔力来创造AI。让我们一起来看看。

Nvidia正在利用Omniverse和Cosmos来加速自动驾驶汽车(AVs)的AI开发。Cosmos的预测和推理能力为AI优先的AV系统提供了支持,这些系统可以通过新的开发方法、模型蒸馏、闭环训练和合成数据生成来实现端到端的训练。首先,模型蒸馏被用作一种策略模型。Cosmos的驾驶知识从一个速度较慢、但更智能的“老师”(这里指的是一个性能更好但速度较慢的模型)那里,迁移到一个更小、更快的“学生”(这里指的是一个需要部署到车端的模型)那里,并在车端进行推理。

老师的策略模型展示了最佳的行驶轨迹,学生模型通过反复迭代学习来模仿这条轨迹,直到它的表现几乎与老师的模型相同。蒸馏过程可以快速启动一个策略模型,但复杂的路况需要进一步的微调。闭环训练可以对策略模型进行微调。日志数据会被转换成3D场景,然后在基于物理的模拟环境中,利用Omniverse神经重建来进行闭环驾驶,创建这些场景的不同版本,来测试模型的轨迹规划能力。

然后,Cosmos行为评估器可以对生成的驾驶行为进行评分,来评估模型的性能。新生成的场景以及它们的评估结果,会创建一个用于闭环训练的大型数据集,帮助自动驾驶汽车更稳定可靠地应对复杂的路况。

最后,3D合成数据生成增强了自动驾驶汽车对不同环境的适应能力。Omniverse根据日志数据,通过融合地图和图像,构建出细节丰富的4D驾驶环境,并生成真实世界的数字孪生,包括通过对每个像素进行分类来指导Cosmos进行语义分割。然后,Cosmos通过生成准确且多样化的场景来扩展训练数据,从而缩小模拟环境和真实环境之间的差距。Omniverse和Cosmos使自动驾驶汽车能够学习、适应并智能地驾驶,从而推动实现更安全的出行。

Nvidia就是干这个的。这是我们的使命:用AI来创造AI。我们刚才给你们展示的那些技术,跟你们现在正在体验的、把你们带入到我们称之为Nvidia的数字孪生世界的那些技术,非常相似。好了,咱们来聊聊数据中心。Blackwell已经全面投产了,就是这个样子。真是太了不起了。你们知道吗,对于我们来说,这简直就是一件艺术品。你们觉得呢?这可是一件大事,因为我们在计算机架构上实现了一个根本性的转变。

实际上,大概三年前,我给你们展示过一个类似的版本。它叫做 Grace Hopper,整个系统叫做 Ranger。Ranger 系统大概有屏幕一半那么宽。它是世界上第一个 NVLink。三年前,我们展示了 Ranger 的运行效果,但是它太大了。不过,我们的思路是完全正确的。我们当时想要解决的就是扩展性的问题。横向扩展的分布式计算,简单来说,就是用一大堆不同的计算机一起工作,来解决一个特别大的问题。

2-10

但是在进行横向扩展之前,纵向扩展是必不可少的。两者都很重要,但是你得先进行纵向扩展,然后再进行横向扩展。纵向扩展非常困难,没有那么容易的解决方案。你不能像用 Hadoop 那样去进行纵向扩展或者横向扩展。弄一堆普通的计算机,把它们连接到一个大型网络里,然后用 Hadoop 来进行存储计算。大家都知道,Hadoop 是一个革命性的想法,它让超大规模的数据中心能够解决海量的数据问题,而且通常使用的都是现成的计算机。然而,我们现在要解决的问题实在是太复杂了,如果用 Hadoop 那种方式来进行扩展,会消耗掉太多的电力和能源。那样的话,深度学习就根本不可能实现了。所以,我们必须要做的就是首先进行纵向扩展。这就是我们进行纵向扩展的方式。我可搬不动这个大家伙。它足足有 70 磅重(约 31.8 公斤)。这是上一代的产品。整个系统的架构叫做 HGX。它彻底改变了我们所熟知的计算。它彻底改变了AI。

这里面有八个 GPU。每一个 GPU 都跟这个差不多。大家看,这是两个 GPU,两个 Blackwell GPU 被封装在一个 Blackwell 芯片里面。这个下面有八个这样的封装。它会连接到我们称之为 NVLink8 的这个东西上。然后,它再连接到像那样的 CPU 托架上。

所以这里有两个 CPU,位于整个系统的顶部。我们通过 PCI Express 来连接它们。然后,其中有很多个会通过 InfiniBand 连接起来,最终形成一个 AI 超级计算机。

2-11

过去是这样的。这就是我们一开始的方案。这就是我们在进行横向扩展之前,所能达到的纵向扩展的极限。但是我们希望能够进一步地进行纵向扩展。我之前跟大家说过,Ranger 这个系统,在之前的基础上又进行了横向扩展,更确切地说,是纵向扩展了四倍。我们当时有了 NVLink32,但是整个系统实在是太大了。所以,我们必须要做一些非常了不起的事情。那就是重新设计 NVLink 的工作方式,以及纵向扩展的方式。我们做的第一件事,就是,我们意识到,这个系统中的 NVLink 交换机是嵌入在主板上的。我们需要把 NVLink 系统解耦出来,把它单独拿出来。这就是 NVLink 系统。

大家看,这是一个 NVLink 交换机。这是目前世界上性能最强的交换机。它能够让每一个 GPU 都能够同时以全带宽和其他所有的 GPU 进行通信。这就是 NVLink 交换机。我们把它解耦出来,把它单独拿出来,然后放到了整个机箱的中央。这里一共有 18 个这样的交换机,分布在九个不同的机架里面,我们把它们叫做交换机托盘。然后,这些交换机是相互独立的。计算单元现在位于这里。它的计算能力相当于之前那两个部分的计算能力。最厉害的是,这是完全液冷的。通过液冷技术,我们能够把所有这些计算节点都压缩到一个机架里面。这是整个行业的一个重大变革。在座的各位,我知道你们来了很多人。我要感谢你们,和我们一起实现了从集成的 NVLink 到解耦的 NVLink、从风冷到液冷的这一根本性的转变。从每台计算机大约 60,000 个组件,到每个机架 600,000 个组件。20 千瓦全液冷。这样一来,我们就在一个机架里面实现了一台 Exaflops 级别的超级计算机。这难道不令人惊叹吗?这就是计算节点。

2-12

现在,它可以被安装到其中一个机架里面。3,000 磅(约 1360 千克)重,5,000 根线缆,长度大约有两英里。这真是一个令人难以置信的电子设备。600,000 个零部件。我觉得这相当于 20 辆汽车的零部件。把 20 辆汽车的零部件集成到一台超级计算机里面。我们的目标就是要实现这一点。我们的目标就是要进行纵向扩展。这就是它现在的样子。我们本质上是想要构建这样一块芯片。但是,没有任何光刻掩膜版的尺寸限制能够允许我们这样做。没有任何现有的工艺技术能够做到这一点。它拥有 130 万亿个晶体管。其中有 20 万亿个晶体管是用于做冗余计算的。所以,在短期之内,你根本不可能合理地制造出这样的芯片。

要解决这个问题,方法就是把它进行解耦,就像我刚才描述的那样,把它分解成 Grace Blackwell NVLink 72 机架。但最终的结果是,我们完成了终极的纵向扩展。这是世界上有史以来最极端的纵向扩展。这里能够实现的计算量、内存带宽(高达 570 TB/秒),这台机器里的一切现在都是以 T(万亿)为单位的。你拥有了一个 Exaflops,也就是每秒一百万万亿次的浮点运算能力。我们之所以要这样做,是为了解决一个极端的问题。

很多人误以为这个问题很简单,但实际上,这是最极端的计算问题。它叫做推理。原因很简单。推理就是一个工厂生产 Token 的过程。而工厂是用来产生收入和利润的,或者说,是会产生亏损的。所以,这个工厂必须以极高的效率和极高的性能来建造。因为这个工厂里的一切,都会直接影响到你的服务质量、你的收入和你的盈利能力。我来给大家解释一下这张图表怎么看,因为我一会儿还会再回到这张图表。

基本上,这里有两个坐标轴。X 轴是每秒钟生成的 Token 数量。每当你进行聊天的时候,当你向 ChatGPT 输入一个提示 的时候,它输出的就是 Token。这些 Token 会被重新组合成单词。每个单词可不止一个 Token。它们会把“the”这样的词进行 Token 化,它可以用于“the”、“them”、“theory”、“theatrics”等等各种情况。“the”就是一个 Token 的例子。他们会把这些 Token 重新组合成单词。我们已经确定了,如果你想让你的 AI 变得更聪明,你就需要生成大量的 Token。

这些 Token 包括推理 Token、一致性检查 Token,以及提出一大堆想法,然后从中选择最佳方案的 Token。所以,这些 Token,它可能是在进行自我反思,这是否是我能做的最好的工作?所以它会像我们平时自言自语一样,跟自己对话。你生成的 Token 越多,你的 AI 就越聪明。但是,如果你回答一个问题花了太长的时间,客户就不会再来了。这和网页搜索是一个道理。在返回一个智能的答案之前,它能够花费的时间是有限度的。所以,你就会面临这两个相互制约的维度。你一方面想要生成大量的 Token,但另一方面,你又希望能够尽快地完成。所以,你的 Token 生成率就非常重要。你希望每一个用户每秒钟能够获得的 Token 数量越多越好。

2-13

然而,在计算机科学和工厂运营中,延迟、响应时间和吞吐量之间存在着一个根本性的矛盾。原因很简单。如果你从事的是大批量的业务,你会进行批量处理,这叫做批处理。你把大量的客户需求集中起来,然后生产出一个特定的版本,供所有人稍后使用。然而,从批量生产开始,到你最终使用,这中间可能会间隔很长的时间。所以,这对于计算机科学来说是一样的,对于生成Token 的 AI 工厂来说也是一样的。所以,你面临着这两个基本的矛盾。一方面,你希望客户的服务质量能够尽可能地好,希望 AI 能够非常智能,而且响应速度要快。另一方面,你又希望你的数据中心能够为尽可能多的人生产 Token,这样你才能最大化你的收入。最理想的状态是右上角。理想情况下,这条曲线的形状应该是一个正方形,这样你就可以为每一个用户快速地生成 Token,一直到达到工厂的极限为止。但是,没有任何工厂能够做到这一点。所以,它可能是一条曲线。你的目标是最大化曲线下面的面积,也就是 X 和 Y 的乘积。你向外扩展得越多,通常就意味着你正在建造的工厂越好。

2-14

事实证明,对于整个工厂的每秒 Token 数,以及响应时间的每秒 Token 数而言,其中一个需要巨大的计算量,而另一个维度则需要巨大的带宽和计算量。所以,这是一个非常难以解决的问题。一个比较好的解决思路是,你应该拥有大量的 flops、大量的带宽、大量的内存,大量的各种资源。这是最好的出发点,这也是为什么这是一台如此出色的计算机的原因。你从尽可能多的 flops、尽可能多的内存、尽可能多的带宽开始,当然,还有最好的架构、最高的能效,而且你必须拥有一个编程模型,能够让你运行各种软件,所有这些都非常困难,这样你才能实现最终的目标。现在,让我们来看一下这个演示,让大家对我们正在讨论的内容有一个更直观的感受,请播放视频。

传统的大语言模型具备基础知识,而推理模型则利用思维 Token来解决复杂的问题。这里有一个例子,要求在满足特定约束条件——比如遵循传统、考虑拍照角度以及处理家庭成员间的矛盾——下来为一个婚礼宴会安排座位。传统的 LLM 可以在 500 个 Token 内迅速给出答案,但可能会出错。而推理模型则需要思考超过 8000 个 Token 才能得出正确答案。这就好比需要一位牧师来维持现场秩序一样。

各位,大家都知道,如果你要为一个 300 人的婚礼安排座位,想找到一个完美的,或者说最佳的方案,这事儿通常只有 AI 或者新娘的母亲才能搞定。合作模式 (co-op) 在这种情况下是行不通的。大家可以看到,我们给模型提出了一个需要推理的问题。R1 开始运行,它进行各种推理,尝试不同的方案,然后回过头来检验自己的答案,判断自己做得对不对。与此同时,上一代的大语言模型采用的是单次生成的方式,只用了 439 个 Token。它速度是挺快,看起来也挺有效,但结果却是错的。这 439 个 Token 就白白浪费掉了。另一方面,如果要对这个问题进行充分的推理——实际上这还是一个相对简单的问题,如果我们加入更多更复杂的变量,那推理的难度可就大大增加了。最终,推理模型使用了将近 9000 个 Token,而且由于模型本身的复杂性,计算量也更大了。这是一个方面。

在给大家展示具体结果之前,我先来解释一下其他方面。对于这个问题的答案,咱们来看一下 Blackwell 系统,以及现在已经规模化的 NVLink 72。首先,我们需要用到这个模型。这个模型可不小,比如说 R1 吧,大家可能觉得它小,但实际上它有 6800 亿个参数。而下一代的模型,参数可能会达到数万亿。要解决这个问题,办法就是把这数万亿的参数,或者说整个模型的工作负载,给它分散到整个 GPU 系统里去。可以采用张量并行,把模型的某一层放到多个 GPU 上去跑;也可以采用管道并行,把整个流程中的一部分切出来,放到多个 GPU 上去;还可以采用专家并行,把不同的专家模型部署到不同的 GPU 上。这三种并行方式——管道并行、张量并行和专家并行——组合起来的数量非常庞大。而根据具体的模型、工作负载和实际情况,我们需要灵活地调整计算机的配置,来达到最大的吞吐量。

有时候,我们需要优化来获得极低的延迟,有时候呢,我们需要优化吞吐量。这就需要用到一些动态批处理的技术,以及其他各种用来做批处理和聚合工作的技术。所以说,这些 AI 工厂的软件,或者说操作系统,那是相当复杂的。这里有一个非常重要的观察结果,像 NVLink72 这样的同构架构,它有一个巨大的优势,那就是每一个 GPU 都可以执行我刚才说的所有这些操作。我们观察到,这些推理模型在计算的过程中会经历好几个不同的阶段。其中一个阶段就是思考。在思考的阶段,模型不会产生大量的 Token,它产生的 Token 可能是给自己用的。模型在思考,可能是在阅读,在消化信息。这些信息可能是一个 PDF 文件,可能是一个网站,甚至可能是一段视频,模型以超线性的速度把这些信息都给吸收进来。

然后,模型把所有这些信息汇总起来,形成一个答案,或者说一个计划好的答案。所以说,这种信息消化和上下文处理的过程需要大量的浮点运算。接下来的阶段叫做解码 (decode)。我们把第一部分叫做预填充。解码阶段同样需要浮点运算,但更重要的是,它需要极高的带宽。如果一个模型有数万亿个参数,那么很容易就能算出来,它每秒需要好几个 TB 的带宽。我之前提到过每秒 576 TB,仅仅是从 HBM 显存里头把模型读出来,然后生成一个 Token,就需要每秒好几个 TB 的带宽。为什么每次只生成一个 Token 呢?这是因为这些大语言模型是在预测下一个 Token。这就是为什么我们说“下一个 Token”,它不是预测每一个 Token,它是在预测下一个 Token。

现在我们有各种各样的新技术,比如说推测解码  等等,可以加速这个过程。但归根结底,模型还是在预测下一个 Token。模型会读取整个模型和上下文(我们把它叫做 KV 缓存,KV cache),然后生成一个 Token。接下来,模型把这个 Token 再放回去考虑,生成下一个 Token,就这么循环往复。每一次循环,模型都需要读取数万亿个参数,生成一个 Token;再读取数万亿个参数,生成另一个 Token;就这么不断地重复。在刚才的演示里,我们生成了 8600 个 Token。这意味着数万亿字节的信息被输入到 GPU 里头,每次只产生一个 Token。这也就是为什么我们特别需要 NVLink 的根本原因。

NVLink 能让我们把所有这些 GPU 整合起来,变成一个巨无霸,实现终极的规模扩展。其次,因为现在所有的资源都通过 NVLink 连起来了,我们就可以把预填充和解码这两个过程给它分开,根据需要,把更多的 GPU 用在预填充上,少一点的 GPU 用在解码上。因为模型需要进行大量的思考,作为一个 AI Agent,它需要阅读大量的信息,做深度的研究。大家可以回想一下深度研究的过程。我之前听到 Michael 谈到他做研究的方式,我也会做类似的事情。

我们会为我们的 AI 启动一些非常庞大的研究项目。我很喜欢这种方式,因为我已经为硬件付过钱了,我非常乐意让我们的 GPU 全力工作,这能给我带来极大的乐趣。我会写点儿东西,然后 AI 就开始进行各种各样的研究,它可能会访问 94 个不同的网站,把所有的信息都读一遍。我呢,也在读这些信息,AI 会根据这些信息形成一个答案,然后写出一份报告。这简直太棒了。

在整个过程里,预填充阶段特别忙,但实际上并没有生成很多的 Token。另一方面,当你在跟聊天机器人聊天的时候,几百万的用户同时都在做类似的事情,那 Token 生成的需求量就会非常大,也就是说解码的负载会非常重。所以,根据不同的工作负载,我们可能会决定把更多的 GPU 用在解码上,或者把更多的 GPU 用在预填充上。这种动态调整的操作,那是非常复杂的。

刚才我已经给大家介绍了管道并行、张量并行、专家并行、动态批处理、推理任务的分解以及工作负载管理。另外,我还需要处理 KV 缓存,把它路由到正确的 GPU 上去,还得管理它在整个内存层级结构里头的流动。这部分软件的复杂程度,那是相当高的。所以,今天我们正式发布 Nvidia Dynamo。

2补

Nvidia Dynamo 负责处理所有这些复杂的工作,它本质上就是 AI 工厂的操作系统。过去,我们运行数据中心,用的操作系统跟VMware 差不多。我们会编排——现在也还是这样,我们是一个大用户——我们会编排大量的企业级应用,让它们在我们的企业 IT 基础设施上跑起来。但是在未来,应用不再是传统的企业 IT 应用了,而是 AI Agent;操作系统也不再是 VMware 之类的了,而是 Dynamo。这个操作系统将运行在 AI 工厂之上,而不是传统的数据中心之上。

我们把它叫做 Dynamo,这是有深刻含义的。大家都知道,Dynamo 是开启上一次工业革命,也就是能源革命的关键设备。水流进发电机,电力就这么产生了。通过水流,或者点燃燃料,把水烧开了产生蒸汽,驱动发电机,最终输出的是电力这种看不见、摸不着,但是极具价值的能量。之后又过了差不多 80 年,才发展出交流电。但是 Dynamo,正是一切的开端。

所以,我们把这个操作系统,这个复杂得不得了的软件,叫做 Nvidia Dynamo。它是开源的,完全公开。我们非常高兴能有这么多的合作伙伴跟我们一起来开发它。其中,我最喜欢的合作伙伴之一,Perplexity,我非常欣赏他们,不光是因为他们做的那些开创性的工作,还因为 Aravin 真的是一个非常棒的人。Perplexity 在这个项目上跟我们是紧密合作。现在,我们需要等基础设施扩展完成,但与此同时,我们已经做了很多很多的模拟,非常深入。我们用超级计算机来模拟我们的超级计算机,这完全是合情合理的。现在,我要给大家展示一下,我前面讲的这些技术都能带来什么好处。大家请回忆一下工厂的示意图。

2-15

在图上,纵坐标 (Y 轴) 表示整个工厂每秒钟能生成的 Token 数量,横坐标 (X 轴) ,表示用户体验到的每秒 Token 数量。我们的目标是构建超级智能的 AI,并且实现大规模的部署。这个是 Hopper 的性能曲线。Hopper 能够为每一个用户提供大概每秒钟 100 个 Token 的生成速度。这是由 8 个 GPU 通过 InfiniBand 连接起来的一个系统。我把性能标准化成了每兆瓦每秒的 Token 数。这是一个 1 兆瓦的数据中心,对于 AI 工厂来说规模不算大哈,但我们先以 1 兆瓦为例。在这个规模下,Hopper 可以为每个用户提供每秒 100 个 Token 的生成速度,整个 1 兆瓦的数据中心每秒可以生成 10 万个 Token。或者,如果进行大规模的批处理,并且用户愿意等比较长的时间,那么整个 AI 工厂每秒可以生成大概 250 万个 Token。Hopper 的吞吐量是 250 万。

这是个什么概念?250 万意味着什么?怎么去理解这个数字?大家可以回想一下,ChatGPT 的价格大概是每 100 万个 Token 10 美元,对吧?每 100 万个 Token 10 美元。咱们先假设一下,我觉得每 100 万个 Token 10 美元的价格大概在这个位置 (图表较低的位置)。我估计它应该在这个位置,但咱们不妨假设它在更高的位置 (图表较高位置)。250 万乘以 10,就是每秒 2500 万美元。或者,如果价格在比较低的这个位置,那就是 10 万,除以 10,也就是每个工厂每秒 25 万美元。一年有 3153.6 万秒,把这个数字乘以每秒的收入,就能估算出这个 1 兆瓦数据中心一年的收入。这就是我们的目标。

一方面,我们希望 Token 的生成速度越快越好,这样才能构建真正智能的 AI。如果 AI 足够智能,用户就愿意掏更多的钱。另一方面,AI 越智能,单个请求需要的计算量就越大,所以在总的吞吐量上就会有所下降。这是一个非常合理的权衡。我们现在要做的,就是改进这条曲线。

我现在给大家展示的,是目前世界上最快的计算机,Hopper,它曾经引领了一场革命。那么,我们怎么才能更上一层楼?首先,我们推出了 Blackwell,还有 NVLink8。同样的 Blackwell 芯片,同样的计算节点,配上 NVLink8,用的是 FP8 精度。Blackwell 就是更快,规模更大,晶体管更多,所有方面都有提升。但我们希望更进一步。所以,我们引入了一种新的精度。虽然它并不完全等同于 4 位浮点数,但是通过用 4 位浮点数,我们可以对模型进行量化,从而降低能耗,用更少的能量来完成同样的工作。这样一来呢,因为完成同样的任务需要的能量少了,我们就能完成更多的工作。

大家要记住,一个很重要的理念就是,未来所有的数据中心都会受到功率的限制。你的收入会受到功率的限制。你可以根据你能用到的功率来估算你的收入。这跟其他很多行业的情况是一样的。所以,我们现在所处的,是一个功率受限的行业。我们的收入会跟这个直接相关。

正因为这样,我们需要确保我们拥有能效最高的计算架构。接下来,我们通过 NVLink72 来进行扩展。大家注意看 NVLink72 和 FP4 精度下的 Blackwell 之间的性能差别。由于我们的架构是高度集成的,现在我们又增加了动态特性,Dynamo 可以进一步提升性能。Dynamo 对 Hopper 也有帮助,但是它对 Blackwell 的提升尤其明显。

2-16

大家注意看我标出来的这两个亮点,这差不多就是系统的“最佳工作点”。这很可能就是你运行工厂时候的最佳状态。你需要在这两者之间找到一个平衡:最大的吞吐量和 AI 的最高质量。最智能的 AI,还有最大规模的部署,这两个指标的交汇点,才是我们真正需要去优化的目标。

如果我们把这两个方框给它放大,这就是 Blackwell 和 Hopper 的详细对比。Blackwell 的性能远远好于 Hopper。大家要记住,这不是在芯片数量相同的情况下的对比,而是在功耗相同的情况下的对比。这是终极的摩尔定律,这才是摩尔定律一直以来真正的含义。现在,在同样的功耗下,Blackwell 的性能提升了 25 倍,这不是芯片数量一样,也不是晶体管数量一样,而是功耗一样,这是最终的限制因素。我们能给数据中心提供的能源是有限的。所以,在同样的功耗下,Blackwell 实现了 25 倍的性能提升。

2-17

现在,大家看到的是“性能彩虹图”。这非常了不起,也是最有意思的部分。大家可以看到各种各样的配置,在帕累托前沿曲线 (Pareto Frontier)下面有几百万种可能的数据中心配置方式。我们可以用各种不同的方式来分配工作负载,进行并行化和分片。我们找到了最佳的解决方案,也就是这个帕累托前沿。帕累托前沿上的每一个点,都对应着一种不同的配置,用不同的颜色来表示。

这表明,我们需要一个可编程的架构,而且这个架构要尽可能地具有同构性和可替代性,因为在整个帕累托前沿上,工作负载的变化非常剧烈。大家看,在图的最上边,我们有专家并行度是 8,批处理大小是 3000,分解关闭,Dynamo 关闭的配置。在图的中间,专家并行度是 64,其中 26% 用来做上下文处理。也就是说,Dynamo 打开,26% 的资源用来做上下文处理,剩下的 74% 用来做非上下文处理/解码,批处理大小是 64,专家并行度分别是 64 和 4。在图的最下边,我们有张量并行度是 16,专家并行度是 4,批处理大小是 2,上下文占比 1% 的配置。在整个范围内,计算机的配置都在不断地变化。

接下来,我们来看一下输入序列长度的影响。这是一个常用的测试场景。这是一个比较容易进行基准测试的场景。输入序列长度是 1000 个 Token,输出序列长度是 2000 个 Token。大家注意,我们之前展示的那个演示里,输出序列长度高达 9000 个 Token,甚至 8000 个 Token。很明显,这个测试场景不能完全代表之前的那个聊天示例。但这个场景更有代表性。我们的目标是为下一代的工作负载构建下一代的计算机。这有一个推理模型的例子,在这个推理模型里,Blackwell 的性能是 Hopper 的 40 倍!这是一个非常惊人的提升。

我之前说过等 Blackwell 开始大规模出货的时候,Hopper 估计就白送都没人要了。我指的就是这个。如果有人还在考虑买 Hopper,别担心,没关系的。但我是“首席收入终结者”,我的销售团队会说:“别这么说” 有些情况下,Hopper 还是够用的。这是我对 Hopper 能说的最好的一句话了。如果让我大胆猜一下的话,适用的情况不多。这就是我想表达的观点。

当技术发展得这么快,工作负载这么重,而且你正在构建这些 AI 工厂的时候,我们真的希望你投资到正确的版本上。为了让大家更直观地了解,这是一个 100 兆瓦工厂的对比。基于 Hopper,你需要 45000 个芯片,1400 个机架,每秒可以生成 3 亿个 Token。而基于 Blackwell 呢,你只需要 86 个机柜!是啊,我知道,这看起来不合常理。我们不是想少卖给你们,我们的销售团队会说:“Jensen,你这是在减少销量,但 Blackwell 更好。”

总之,你买的越多,省的就越多。现在情况甚至更好了,你买的越多,赚的就越多!大家要记住,一切都要放在 AI 工厂的背景下来考虑。虽然我们一直在说芯片,但实际上,我们始终是从整体的规模出发的。我们说芯片,但出发点始终是整体的规模,是能够扩展到的最大的规模。

2-18

现在,我想给大家展示一下 AI 工厂的实际的样子。但是 AI 工厂实在是太复杂了。我刚才只是举了一个机架的例子,它里头有 60 万个零件,重量达到了 3000 磅。现在,我们需要把这个机架跟其他很多的机架连起来。所以,我们开始构建所谓的“数字孪生”,也就是每一个数据中心的数字孪生。在建数据中心之前,你必须先建一个数字孪生。来看一下,这真是太漂亮了。

当前,全球各国都在竞相建设最先进的大规模 AI 工厂。建设 AI 超级工厂是一项非凡的工程壮举,它需要来自供应商、建筑师、承包商和工程师等数万名工作人员的共同努力,来建造、运输和组装近 50 亿个组件,以及超过 20 万英里的光纤——这个距离几乎相当于从地球到月球的距离。Nvidia OMniverse 蓝图为 AI 工厂的数字孪生提供了有力支持,使我们能够在实际建设开始之前很久,就对这些 AI 工厂进行超前的设计和优化。

今天,Nvidia 的工程师们正在使用该蓝图来规划一个 1 吉瓦的 AI 工厂,该工厂集成了最新的 Nvidia DGX 超级计算集群 的 3D 和布局数据、来自 Vertiv 和 Schneider Electric 的先进电源和冷却系统、以及来自 Nvidia air 的优化拓扑结构。Nvidia air 是一个用于模拟网络逻辑、布局和协议的框架。传统模式下,这项工作通常是在各自独立的部门中完成的。

而 Omniverse 蓝图使我们的工程团队能够并行协作,从而探索各种不同的配置方案,以最大化总体拥有成本 (TCO) 和电能利用率。Nvidia 使用由 CUDA 和 Omniverse 库加速的 Cadence Reality 数字孪生来模拟空气和液体冷却系统,并使用 Schneider Electric 的 eTap (电力系统仿真分析软件) 来模拟电源转换效率和可靠性。实时模拟使我们能够在几秒钟内完成迭代并运行大规模的假设情景,而无需花费数小时的时间。我们利用数字孪生技术向庞大的团队和供应商传达指令,从而减少执行错误,加快项目启动时间。此外,在规划设备改造或系统升级时,我们可以轻松地测试和模拟成本及停机时间,从而确保我们的 AI 工厂能够适应未来的需求。 

这是有史以来第一次有人建造这样的数据中心,真是太美了,各位,我必须要加快速度了,因为我有很多内容要和大家分享。首先,让我们来看一下我们整体的路线图。目前,我们正在全力生产 Blackwell 系列产品,全球各地的计算机公司都在大规模部署这些性能惊人的机器。我感到非常高兴,也十分感谢大家为过渡到这一全新架构所付出的巨大努力。今年下半年,我们将顺利过渡到升级版本——Black Wall Ultra NVLink 72。它的浮点运算能力提升了 1.5 倍,拥有全新的注意力指令集,内存容量也增加了1.5 倍。增加的这些内存对于 KV cache 等应用非常有帮助。它的网络带宽也翻了一番。因此,由于我们采用了相同的底层架构,大家可以非常平滑地过渡到新版本。这就是 Blackwell Ultra,它将在今年下半年正式推出。

2-19

我们之所以如此迅速地推进产品更新,背后是有原因的,这是我所知道的唯一一个产品发布会,在座的每一位都会说“好的,请继续介绍下一个”。事实上,这正是我所期望得到的反应。原因在于,我们正在建设的是 AI 工厂和 AI 基础设施,这需要长达数年的规划。这和购买笔记本电脑不一样,不是那种可以随意支配的开销,而是我们必须提前进行周密规划的。我们必须规划场地、电力供应,准备好资本支出,召集工程师团队,并且需要提前两到三年进行整体布局。这就是为什么我会提前两三年向大家展示我们的路线图,以免我们在五月份突然宣布新产品,让大家感到措手不及。

比如,“下个月我们就要迁移到一个全新的、性能超强的系统”。稍后我会给大家举一个例子来说明。我们计划在未来几年内陆续推出新品,明年将要推出的产品是以一位杰出的天文学家的名字命名的。她的孙辈们今天也来到了现场。她的名字是 Vera Rubin,她发现了暗物质。Vera Rubin 这一产品系列非常了不起,因为它的 CPU 是全新设计的,性能是 Grace 的两倍,拥有更大的内存和带宽,但功耗却只有 50 瓦。这真的是非常了不起。Rubin 采用了全新的 GPU、CX9、全新的网络、smart NIC、NV link 6、全新的 MV link、全新的内存 HBM4。基本上除了机箱之外,所有的组件都是全新的。这样一来,我们就可以在一个方向上大胆地承担技术风险,而不必担心与基础设施相关的其他风险。Vera Rubin MVLink144 将于明年下半年正式推出。

2-20

关于这一点,我之前犯了一个错误,需要大家和我一起来做一个调整。Blackwell 实际上是将两个 GPU 集成在一个 Blackwell 芯片当中。我们之前称其为一个 GPU,但这个说法是不准确的。因为这会影响到 MV link 的命名规则。因此,在不追溯修改 Blackwell 的前提下,从现在开始,当我说 MVLink 144 时,它仅仅表示连接了 144 个 GPU。每一个 GPU 都是一个独立的 GPU 裸片。它们可以被封装在一起,封装的具体方式可能会随时发生变化。每一个 GPU 裸片都是一个独立的 GPU,每一个 MV link 都连接到相应的 GPU。所以,更准确地说,应该是 Rubin NV link 144。这为今年下半年的产品发布奠定了基础。

明年,我们将推出 Rubin Ultra。所以,是 Vera Rubin Ultra。它将于 2027 年下半年问世。它将采用 NVLink 576,实现极致的纵向扩展能力。每个机架的功率为 600 千瓦,包含 250 万个组件。很显然,它还集成了大量的 GPU,所有的参数都得到了大幅提升。它的浮点运算能力是原来的 14 倍,达到了 15 exaflops,而不再是 1 exaflop。正如之前提到的,现在是 15 exaflops。这是纵向扩展的 exaflops。它的带宽高达 4.6 petabytes,也就是每秒 4600 terabytes。这里指的是纵向扩展的带宽,我指的不是聚合带宽,而是纵向扩展的带宽。当然,还有许多全新的 MV link 交换机和 CX9。“ISO 尺寸”意味着它与 Grace Blackwell 具有相同的物理尺寸。现在,让我们更直观地了解一下。这就是它的外观。

2-21

接下来,会非常有意思。各位现在正在部署 Grace Blackwell。我无意冒犯,但这就是 Grace Blackwell 的样子。这就是 Rubin 的样子。它们具有相同的物理尺寸。换句话说,在进行横向扩展之前,必须先进行纵向扩展。然后,再利用我稍后将要展示给大家的这项令人惊叹的技术来进行横向扩展。首先进行纵向扩展,现在大家可以感受到我们的发展速度。这是纵向扩展的浮点运算能力。Hopper 为 1x,Blackwell 为 68x,Rubin 为 900x 纵向扩展的浮点运算能力。如果我把它转换成你们的 TCO (总体拥有成本),也就是功率除以性能,或者说是曲线下方的面积,即浮点运算能力乘以带宽。那么,一个简单的经验法则是,用瓦特数除以这些数字,就可以大致判断你们的 AI 工厂是否取得了进展。大家可以看到,Rubin 将会显著降低总体拥有成本。这就是 Nvidia 的产品路线图,非常紧凑,一年更新一次。

我们如何进行纵向扩展呢?我们推出了 MP Vlink,用于纵向扩展。我们的横向扩展网络是 InfiniBand 和 Spectrum X。很多人都对我们进入以太网领域感到惊讶。我们决定进军以太网的原因在于,如果能够让以太网具备 InfiniBand 的那些优良特性,那么网络本身将会更易于使用和管理。因此,我们决定投资 Spectrum,并将其命名为 Spectrum X。

2-22

我们将拥塞控制、极低延迟以及作为计算结构一部分的大量软件等特性引入其中。通过这些努力,我们使 Spectrum X 具备了令人难以置信的高性能。我们将有史以来最大的单个 GPU 集群通过 Spectrum X 纵向扩展为一个巨型集群,也就是 Colossus。还有很多其他的例子。毫无疑问,Spectrum X 是我们取得的一项巨大成功。我非常兴奋的一个领域是,最大的企业网络公司采用了 Spectrum X,并将其集成到他们自己的产品线中,从而帮助全球的企业转型为 AI 公司。目前,我们拥有 10 万个 CX8 和 CX7。CX8 和 CX9 即将问世。在 Rubin 时代,我们希望将 GPU 的数量横向扩展到数十万个。将 GPU 横向扩展到数十万个的挑战在于,横向扩展的连接,这种连接在纵向扩展上目前主要依赖于铜缆。我们应该尽可能地使用铜缆,大约一到两米的距离。铜缆连接表现非常出色,可靠性高、能效好、成本低。因此,我们在纵向扩展中尽可能多地使用铜缆。

但是,在横向扩展中,数据中心的规模已经相当于一个体育场,我们需要更长距离的连接。这就是硅光子技术的用武之地。硅光子技术目前面临的挑战在于收发器的功耗非常巨大。要实现电信号到光信号的转换,必须经过 SerDes,也就是收发器。而且是多个 SerDes。让我们把画面调出来,这样我就能给大家更清楚地展示一下。首先,我们宣布推出 Nvidia 首个采用共同封装 (Co-packaged optics) 技术的硅光子系统,这是全球首个每秒 1.6 TB 的 CPO。它基于微环谐振器调制器 (MRM) 技术,完全采用我们在 TSMC 的先进工艺技术制造,我们在这个项目上已经合作了一段时间。此外,我们还与一个庞大的技术提供商生态系统展开了紧密合作,共同开发了接下来我将要展示给大家的这项成果。这真是一项令人惊叹的技术。

我们之所以决定投资 MRM,是因为它具有惊人的密度和功率优势,与用于电信领域的 Mach-Zehnder 调制器相比,MRM 具有更高的密度和更低的功耗。当你从一个数据中心连接到另一个数据中心时,或者在我们现在使用的这些收发器中,我们使用的是 Mach-Zehnder 调制器,这是因为之前的密度要求并不高。现在,如果大家看一下这些收发器,这是一个收发器的例子。

2-23

这个收发器的功耗是 30 瓦。请大家记住,30 瓦。如果批量采购,单个的价格是 1000 美元。这是一个插头。这一端是电接口,另一端是光接口。光信号通过黄色的光纤传输进来。你把它插到交换机上,连接的就是电信号。这一端集成了收发器、激光器和 Mach-Zehnder 调制器技术。非常了不起。我们利用它来实现 GPU 到交换机、再到下一个交换机、最终到 GPU 的连接。假设我们有 10 万个 GPU,那么就需要 10 万个这样的收发器,以及另外 10 万个用于交换机之间的连接。另一端则连接到另一个网络接口卡 (NIC)。如果我们有 25 万个 GPU,就需要增加一层交换机。每一个 GPU,假设有 25 万个 GPU,每个 GPU 将配备 6 个收发器,也就是 6 个这样的插头。这 6 个插头将为每个 GPU 增加 180 瓦的功耗,每个 GPU 180 瓦,每个 GPU 6000 美元。那么,问题来了,我们如何扩展到数百万个 GPU 呢?因为如果有一百万个 GPU,乘以 6,那就是 600 万个收发器,再乘以 30 瓦,那就是 180 兆瓦的收发器功耗。它们本身不进行任何计算,仅仅负责信号的传输。

所以,问题是,我们如何才能负担得起如此高的功耗?正如我之前提到的,能源是我们最为宝贵的资源。一切最终都与能源息息相关。因此,这将通过减少 180 兆瓦的功率,来直接限制我们以及我们客户的收入。这就是我们所做的这项了不起的工作——我们发明了世界上第一个 MRM 微环。大家现在看到的就是它的外观。这里有一个小小的波导。看到波导上的那个圆环了吗?这个圆环会产生谐振,从而精确控制波导的反射率,限制和调制通过的光量,通过吸收或者透传来控制光信号。它将连续的激光束转换为数字信号 1 和 0。这就是这项技术的奥秘所在。这项技术,也就是光子 IC,与电子 IC 堆叠在一起,然后再与一组微透镜堆叠,这组微透镜再与光纤阵列堆叠。所有这些组件都是在 TSMC 使用 CoWoS (Chip-on-Wafer-on-Substrate) 技术来制造的,并且采用 CoWoS 封装技术,与众多技术提供商合作完成。最终,它变成了大家现在看到的这个令人惊叹的设备。让我们来看一段关于它的视频。

这真是一个伟大的技术奇迹。它们被集成到这些交换机当中。我们的 InfiniBand 交换机,芯片运行得非常出色。今年下半年,我们将正式推出硅光子交换机。明年下半年,我们将推出 Spectrum X。

2-24

由于我们选择了 MRM,由于我们在过去五年中承担的巨大技术风险,我们已经申请了数百项专利,并且我们已经将这项技术授权给我们的合作伙伴,以便大家都可以大规模制造。现在,我们可以将硅光子技术与共同封装选项完美地结合起来。无需收发器,光纤直接接入我们的交换机,radix 高达 512。大家现在看到的就是 512 个端口。这在以前是根本无法实现的。这为我们扩展到数十万甚至数百万个 GPU 奠定了坚实的基础。这样做的好处,大家可以想象一下,在数据中心里,我们可以节省数十兆瓦的电力。我们假设是 60 兆瓦。6 兆瓦相当于什么?6 兆瓦相当于 10 个 Rubin Ultra 机架。6 兆瓦就是 10 个 Rubin Ultra 机架。60 兆瓦,那可是相当可观的。

这意味着我们可以将相当于 100 个 Rubin Ultra 机架的功率用于部署 Rubins。这就是我们的产品路线图,一年一次,每两年更新一次底层架构,每年推出一个全新的产品系列。每年都会有显著的性能提升,我们会分别在芯片、网络或系统机箱等方面承担一定的技术风险,以便在不断追求这些尖端技术的同时,有力地推动整个行业向前发展。

Vera Rubin,我非常感谢她的孙辈们今天能够来到这里。这是我们对她所做出的杰出贡献表示认可和敬意的绝佳机会。我们的下一代产品将以 Feynman 的名字来命名。好的,以上就是 Nvidia 的产品路线图。接下来,我将和大家分享一下企业级计算方面的一些进展。这一点非常重要。为了将 AI 技术推广到全球的企业,首先,我们需要了解 Nvidia 的另一个重要领域——3D 高斯溅射(Gaussian Splats)的独特魅力。

2-25

为了将 AI 技术全面推广到企业级应用中,我们有必要回顾并牢记一点:AI 和机器学习已经彻底重塑了整个计算体系。从处理器、操作系统到上层应用程序,一切都焕然一新。应用程序的开发方式、编排方式,乃至运行方式,都与以往大不相同。举个例子,数据访问的方式将发生根本性的变革。未来,我们不再需要像过去那样,先精确检索到所需的数据,然后再通过阅读来理解其含义;而是可以像使用 Perplexity 那样,直接提出问题,就能得到答案。未来的企业 IT 也将如此。我们将拥有 AI Agent,它们将成为我们数字化劳动力的重要组成部分。

目前,全球有 10 亿知识工作者,而未来,可能会有 100 亿数字工作者与我们并肩作战。所有的软件工程师都将得到 AI 的辅助,这一点我深信不疑。而且,到今年年底,Nvidia 所有的软件工程师都将实现 AI 辅助。AI Agent 将无处不在。它们的运行模式、企业的应用方式,以及我们对它们的管理方式,都将发生根本性的变化。因此,我们需要一系列全新的计算机。而这,才是 PC 应有的样子。

2-26

高达 20 petaflops 的算力,72 个 CPU 核心,芯片间互联技术,HBM 高带宽内存,以及为 GeForce 显卡预留的 PCI Express 插槽。这款名为 DGX Station 的产品,以及 DGX、Spark 和 DGX Station,将由所有 OEM 厂商提供,包括 HP、Dell、Lenovo 和 ASUS。它将是为全球的数据科学家和研究人员量身打造的。这是属于 AI 时代的计算机,这才是计算机应有的形态,也是计算机未来的发展方向。我们为企业提供了全线产品,从小型的工作站、服务器,到超级计算机,一应俱全。所有合作伙伴都将提供这些产品。此外,我们还将对计算堆栈的其他组成部分进行革新。

计算领域有三大支柱:计算、网络(正如我之前提到的 Spectrum X,一个面向全球企业的 AI 网络),以及存储。储必须进行彻底的重塑。未来的存储系统将不再是基于检索的,而将是基于语义的。因此,存储系统必须能够在后台持续地嵌入信息,将原始数据转化为知识。这样一来,当你需要访问数据时,无需进行检索,只需与之对话,提出问题或任务即可。举个例子,Box 的 Aaron 已经与我们展开合作,在云端部署了一个应用。从本质上讲,这是一个超级智能的存储系统。未来,每个企业都将拥有类似的系统。这就是未来的企业级存储。我们正在与整个存储行业通力合作,包括 DDN、Dell、HP Enterprise、Hitachi、IBM、NetApp、Nutanix、Pure Storage、Vast 和 Weka 等众多杰出的合作伙伴。几乎全球所有的存储厂商都将首次提供这一技术堆栈。未来的存储系统将实现 GPU 加速。

2-27

这是 Michael 准备的幻灯片,是一张非常棒的幻灯片。为什么这么说呢?因为他用一张幻灯片就清晰地阐述了 Dell 将提供全线的 Nvidia Enterprise IT AI 基础设施系统,以及运行其上的所有软件。大家可以看到,我们正在引领一场全球企业界的革新。

今天,我们还发布了一个功能强大的模型,每个人都可以运行。之前,我向大家展示了 R1,一个具备推理能力的模型。我还将它与不具备推理能力的模型 Llama 3 进行了对比,显然 R1 要智能得多。但是,我们还可以做得更好,让任何公司都能为企业级应用做好充分准备。现在,作为我们 NIMS 系统的一部分,R1 已经完全开源。大家可以下载并在任何平台上运行,包括 DGX Spark、DGX Station、任何 OEM 厂商制造的服务器、云端,还可以将其集成到任何 Agentic AI 框架中。我们正在与全球众多公司展开合作,接下来,我将快速地展示其中的一部分,请大家仔细观看。

现场有很多我们的重要合作伙伴,我想在这里特别介绍一下 Accenture。Julie Sweet 和她的团队正在构建 AI 工厂和 AI 框架。还有 Amdocs,它是全球最大的电信软件公司。以及 ATT,John Stankey 和他的团队正在构建 ATT 的 Agentic AI 系统。Larry Fink 和 Blackrock 团队也在构建他们自己的系统。还有 Andy Rude。未来,我们不仅要招聘ASIC设计师,还要从 Cadence Design Systems(CEO为Anirudh Devgan)聘请大批数字ASIC设计师。Cadence正在构建其AI框架,集成NVIDIA的模型(如NeMo)、NVIDIA NIM(推理微服务)以及 CUDA加速库(如cuDNN),支持本地和云端部署。Capital One,作为在技术应用方面最为领先的金融服务公司之一,已经全面采用了 Nvidia 的技术。Deloitte 的 Jason 及其团队, Eni的Janet及其团队,NASA 的 Adina 及其团队,都在将 Nvidia 的技术集成到他们各自的 AI 框架中。此外,还有 Christian 和他在 SAP 的团队,Bill McDermott 和他在 ServiceNow 的团队。

接下来,让我们转换一下话题,来谈一谈机器人技术。现在,是时候讨论机器人了。机器人时代已经到来。机器人最大的优势在于,它们能够与物理世界进行交互,做到数字信息无法做到的事情。我们都清楚地认识到,全球正面临着严重的劳动力短缺问题。预计到 2030 年,全球劳动力缺口将至少达到 5000 万。我们当然非常乐意为每个人提供 5 万美元的年薪。但相应的,我们可能也需要每年支付 5 万美元给机器人。

因此,这将是一个规模极为庞大的产业。机器人系统的种类繁多。未来的基础设施都将是机器人化的。仓库和工厂中将部署数以十亿计的摄像头。全球范围内,有 1000 万到 2000 万家工厂。正如我之前提到的,每一辆汽车都已经是一个机器人。而现在,我们正在致力于开发通用机器人。接下来,我将向大家展示我们的进展。

2-28

所有运动的物体都将实现自主化。物理 AI 将赋能各行各业的各类机器人。Nvidia 构建的三台计算机,实现了机器人 AI 的模拟、训练、测试以及真实世界经验的持续循环。训练机器人需要海量的数据。互联网规模的数据能够提供常识和推理能力,但机器人还需要动作和控制数据,而这些数据的获取成本往往很高。借助基于 Nvidia、Omniverse 和 Cosmos 构建的蓝图,开发人员可以生成大量多样化的合成数据,用于训练机器人的行为策略。首先,在 Omniverse 中,开发人员可以根据不同的领域、机器人类型和任务需求,聚合来自真实世界的传感器数据或演示数据。

然后,利用 Omniverse 对 Cosmos 进行调节,将原始采集的数据倍增,生成海量且逼真的多样化数据。开发人员可以使用 Isaac Lab,利用这些增强的数据集对机器人的行为策略进行后期训练。通过模仿学习来克隆行为,或者通过强化学习和 AI 反馈进行试错,让机器人学习新的技能。需要注意的是,实验室的训练环境与真实世界是存在差异的。因此,新的行为策略还需要经过现场测试。开发人员可以利用 Omniverse 进行软硬件在环测试,在具有真实世界环境动态的数字孪生环境中模拟机器人的行为策略,并进行域随机化、物理反馈以及高频传感器模拟。在真实世界的应用场景中,往往需要多个机器人协同工作。Mega 是一个 Omniverse 蓝图,它支持开发人员对经过后期训练的行为策略进行大规模测试。

例如,富士康就在一个虚拟的 Nvidia Blackwell 生产设施中,对各种不同类型的机器人进行了测试。当机器人的“大脑”执行任务时,它们会通过传感器模拟来感知行动的结果,然后规划下一步的行动。Mega 允许开发人员测试多种机器人的行为策略,使机器人能够作为一个系统协同工作,无论是进行空间推理、导航、移动,还是执行灵巧的操作。许多令人惊叹的成果都诞生于模拟之中。今天,我们非常高兴地推出 Nvidia Isaac Groot N1。Groot N1 是一个用于人形机器人的通用基础模型。它建立在合成数据生成和机器学习的基础之上。在模拟环境中,Groot N1 采用了一种双系统架构,以实现快速和慢速的思考模式,其灵感来源于人类认知过程的原理。慢速思考系统使机器人能够感知和推理周围的环境以及接收到的指令,并规划出正确的行动方案

而快速思考系统则负责将这些规划转化为精确且连续的机器人动作。Groot N1 强大的泛化能力,使得机器人能够轻松地操控常见的物体,并协同执行多步骤的任务。借助这一整套包含合成数据生成和机器人学习的完整流程,人形机器人的开发者们可以在全球多个不同的环境中,对 Groot N1 进行跨多种形态和任务的后期训练。各行各业的开发者们都在利用 Nvidia 的这三台计算机,来构建下一代的具身 AI。

物理 AI 和机器人技术的发展日新月异,请大家务必密切关注这一领域。它极有可能发展成为规模最大的产业。从本质上讲,我们所面临的挑战是相同的。正如我之前提到的,我们主要关注三个方面,而且这些方面是系统性的:第一,如何解决数据问题?如何以及在哪里生成训练 AI 所需的数据?第二,模型架构应该是什么样的?第三,Scaling Law 是什么?我们应该如何扩展数据、算力,或者两者兼顾,从而让 AI 变得越来越智能?如何实现这种扩展?这些基本问题同样存在于机器人领域。

在机器人领域,我们创建了一个名为 Omniverse 的系统,它是我们用于物理 AI 的操作系统。大家可能已经听我介绍 Omniverse 很长时间了。这次,我们又新增了两项关键技术。今天,我将向大家展示两项重要的成果。其中之一是,我们可以利用具备生成能力,并且能够理解物理世界的生成模型,来扩展 AI。我们将这个模型称为 Cosmos。我们利用 Omniverse 来对 Cosmos 进行调节,并利用 Cosmos 来生成无限数量的环境。这些环境使我们能够创建出有依据、受我们控制,同时又具备系统无限性的数据。正如大家所看到的,在 Omniverse 中,我们用鲜艳的色彩来展示对场景中机器人的完美控制,而 Cosmos 则可以创建出所有这些虚拟环境。

2-29

第二项重要成果,正如我们之前所讨论的,当今语言模型的一项关键扩展能力就是强化学习。可验证的奖励至关重要。那么,问题来了,在机器人技术中,什么是可验证的奖励呢?正如我们所熟知的,答案就是物理定律,即可验证的物理奖励。因此,我们需要一个性能强大的物理引擎。目前,大多数物理引擎的设计都有其特定的应用场景,它们可能是为大型机械设计的,也可能是为虚拟世界、电子游戏等设计的。但是,我们需要的是一个专为精细的刚体和柔性体设计的物理引擎,它能够支持触觉反馈、精细运动技能以及执行器控制的训练。我们还需要它具备 GPU 加速能力,从而使得这些虚拟世界能够以超线性时间运行,实现超实时的效果,并且能够以极快的速度训练 AI 模型。此外,我们还需要将它无缝集成到一个全球机器人专家都在使用的框架中,也就是MuJoCo。因此,今天,我们非常荣幸地宣布一项意义非凡的合作。DeepMind、Disney Research 和 Nvidia 这三家公司将携手合作,共同打造一个全新的项目。我们将它命名为 Newton。让我们一起来了解一下 Newton物理引擎。

2-30

我们还有一个激动人心的好消息要宣布。我之前就说过,我们的机器人技术一直在突飞猛进。今天,我们正式宣布 Groot N1 开源!感谢各位的光临。

2-31

让我们来做一个总结。感谢大家参加本次 GTC 大会。我们讨论了几个重要方面。首先,Blackwell 已经全面投产,并且正在迅速扩大生产规模。客户的需求非常旺盛,这是理所当然的。因为 AI 领域正处于一个关键的拐点。由于推理 AI 以及推理 AI 和 Agentic AI的训练需求,我们需要进行的 AI 计算量大幅增加。其次,配备了 Dynamo 技术的 Blackwell NV Link 72,其 AI 工厂的性能是 Hopper 的 40 倍。随着 AI 技术的不断发展和规模化应用,推理将成为未来十年最重要的工作负载之一。第三,我们已经制定了年度技术路线图,方便大家规划各自的 AI 基础设施。目前,我们拥有三大 AI 基础设施:面向云计算的 AI 基础设施、面向企业的 AI 基础设施,以及面向机器人的 AI 基础设施。最后,我们还有一个惊喜要带给大家,请观看视频。谢谢大家!感谢所有促成这段视频的合作伙伴,感谢所有为这段视频的制作做出贡献的人。祝大家在 GTC 期间收获满满。谢谢大家!

【AI算力产业讨论社群|仅限受邀加入】

席位锁定中:AI算力领域TOP级从业者专属圈层

√  与头部算力企业深度对话

√  获取一手全球AI与算力产业信息

√  获取AI算力产业独家信息

√  随时了解智算中心项目动态

√  有机会参与主题AI与算力产业交流活动

扫码验证身份(需备注姓名/公司/职务)

注:每满200人关闭入口

IDC李融

不止是 DeepSeek,更是 AI 算力产业的未来!

算力产业内刊pro

展开
打开“财经头条”阅读更多精彩资讯
APP内打开