李飞飞揭秘空间智能

管理智慧

11小时前

5.空间智能在未来可以将目前的2D体验都升级为3D,我们生成的不只是图像或视频,而是得到一个完全模拟但可交互的3D世界,可应用于游戏、摄影、教育等行业中。

来源 |  

管理智慧

咨询合作| 13699120588

文章仅代表作者本人观点,图片来源于视频截图

未来空间智能可以将2D体验全部升级为3D。
近日,被誉为“AI教母”的人工智能科学家李飞飞联合创办的World Labs(世界实验室)获得2.3亿美元融资的消息引发关注。融资不仅吸引了a16z、AMD、Intel、英伟达等知名投资机构和科技公司,还吸引了人工智能领域的许多知名人士。为何空间智能如此火热,它与现在流行的语言大模型有何不同?近日,李飞飞带着她的爱徒,同样也是世界实验室的联合创始人贾斯汀·约翰逊(Justin Johnson,以下简称“贾斯汀”)一起接受了a16z合伙人马丁·卡萨多(Martin Casado)的播客采访,为我们揭开了空间智能的神秘面纱。
李飞飞在访谈中把空间智能比喻为北极星,称自己的智能研究生涯一直在寻找和追求北极星,最终认定了空间智能。她相信每一个智能体看到世界、产生互动甚至是在其上建立文明,视觉空间智能都是不可或缺的,它和语言一样是文明的基础,甚至在某些方面历史可能更悠久。她也坦言目前还不清楚空间智能的硬件形式是什么,可能是护目镜、隐形眼镜,但可以肯定的是,它会成为真实世界和你可以做的事情之间的桥梁。最后李飞飞提到,当用户和企业使用他们的模型来解锁对空间的需求时,空间智能的发展就会迎来一个重要的里程碑。

精彩观点如下:

1.现在我们正处于寒武纪大爆发时期,除了文本之外,AI还能生成图片、视频、音频等,人工智能的发展让人感到非常惊喜。
2.不可忽视的一个核心要素就是计算,人工智能就是计算的故事,无论人们如何谈论它,都低估了它。
3.我热爱视觉智能,我相信每一个智能体看到世界、产生互动甚至是在其上建立文明,视觉空间智能都是不可或缺的,它和语言一样是文明的基础,甚至在某些方面历史可能更悠久。
4.空间智能是指机器在三维空间和时间中感知、推理和行动的能力。
5.空间智能在未来可以将目前的2D体验都升级为3D,我们生成的不只是图像或视频,而是得到一个完全模拟但可交互的3D世界,可应用于游戏、摄影、教育等行业中。

6.当用户和企业使用我们的模型来解锁他们对空间的需求时,空间智能的发展就会迎来一个重要的里程碑。

以下为对话全文(有删改):

01

与空间智能结缘
主持人:过去两年,我们看到了消费级人工智能公司和技术的爆发式增长,你们已经在AI领域研究了几十年,可以介绍一下你们是如何走到今天这一步的吗?
李飞飞:人工智能正处于一个激动人心的阶段,我个人已经在这个领域研究了二十多年,我们已经走出了上一轮人工智能寒冬。
我们看到了现代人工智能的诞生,看到了深度学习的兴起,看到了技术应用的可能性,比如各种语言模型。现在我们正处于寒武纪大爆发时期,除了文本之外,AI还能生成图片、视频、音频等,人工智能的发展让人感到非常惊喜。
主持人:你们在业内知名度很高,但普通人可能还不太熟悉你们,简单介绍一下自己,让大家更好地理解你们在做什么。
贾斯汀:我第一次接触人工智能是在本科结束的时候,我本科学的是数学和计算机,快毕业看到了当时发表的一篇著名论文——《Building High-level Features Using Large Scale Unsupervised Learning》,来自当时在谷歌工作的8位科学家。那是我第一次接触深度学习的概念,深深打动了我,我将它确定为下一个十年要做的事情。

来源:视频截图

进入人工智能研究领域的想法大概是2011年~2012年期间产生的,很显然,做这件事必须读研究生,去研究院才行,然后我就发现了在斯坦福大学的飞飞,她是当时世界上少数在这个研究领域的人。那时,深度学习和计算机视觉等技术才刚刚开始发展,我们看到了语言建模的开始,我们看到了计算机视觉的开始,我们还看到了一些现在称之为生成建模的早期部分,很多LLM(大型语言模型)的算法片段都是我在攻读博士学位期间想出来的。
有一段时间,我每天早上醒来都会阅读缓存好的新论文,就像拆开圣诞节礼物一样,充满了惊喜。每天会有一些惊人的新发现、新应用和新算法,过去这两年,人们或许才感受到人工智能带给他们的惊喜,而我们这些在行业内工作了十多年的人,早就体会过这种感觉了。
李飞飞:我比贾斯汀年长很多,我是从物理学的不同角度来接触人工智能的。物理学是一门教你思考大胆问题,引导你探索宇宙秘密的学科。这种思维训练激发了我的想象力,也就是智能,所以我选择攻读人工智能领域的博士学位并从事这方面的研究。
博士期间,人工智能在大众眼中还处于寒冬时期,但我不这么认为,因为冬眠期前机器学习、统计建模等都有进展,这些都是人工智能发展的力量。我自认为是探索人工智能和机器学习的第一代人,贾斯汀是研究深度学习的第一代人,所以机器学习是深度学习的先驱,我们现在正在尝试各种深度学习模型。
但在我博士课程结束时发生了一件事,我的助理教授发现人工智能中有一个被忽视的元素,它在数学上对于推动泛化很重要,但整个AI领域并没有考虑到它,而是把目光集中在数据上。我和我的学生可能比大多数人更早意识到,如果让数据驱动模型,可以释放出我们从未见过的力量,这是我们疯狂押注图像网络的原因。自然语言处理中存在成千上万个数据点,它们有自己的数据集,我们需要将其驱动到像今天互联网规模一样。
主持人:计算机视觉和生成式网络浪潮中,我们探讨过几个核心突破,其中一个是Transformer论文中提到的注意力稳定扩散,这是一种公平的思考方式,那还有没有其他元素的突破也推动了人工智能的发展?
贾斯汀:不可忽视的一个核心要素就是计算,人工智能就是计算的故事,无论人们如何谈论它,都低估了它。过去十年人类的计算能力增长是惊人的,在深度学习的计算机视觉领域取得突破的人是Alex Krizhevsky,他在2012年发表的一篇论文中谈到深度神经网络在ImageNet上表现非常出色,击败了飞飞一直在研究的其他算法。AlexNet(卷积神经网络)是一个有着6000万参数的深度神经网络,它在两台GTX 580上训练了六天,这是当时顶级的消费级显卡。我昨晚看了一些数字,Nvidia目前最棒的产品是GB200,你们知道GTX 580和GB200之间有多少原始计算因子吗?有数千个,所以我昨晚在GB200上重新运行了AlexNet,只需要5分钟。
李飞飞:贾斯汀提出了一个非常好的观点,2012年Alex的论文实际上是一个非常经典的模型。研究生期间,我看过一篇发表于1980年的文章,里面介绍的神经网络模型至少也有六七层,实际上AlexNet和CNN(卷积神经网络)之间,一个重要的不同之处就在GPU,它们需要的算力是不一样的。
主持人:我在读博士的时候也学过机器学习,不过很多都是预测模型,我记得你们研究的智能是只要理解视觉内容就能生成新的内容是吗?
李飞飞:生成模型很有趣,那时候我们在研究如何生成,我们也试图做一些字母或数字,但事实上,如果从概率分布的角度思考,可以用数学方法生成模型,理论上可行,但实际我们生成的东西不会给人留下任何印象,没什么用。所以我不得不提一下贾斯汀的博士学位,贾斯汀说他迷上了深度学习,所以来到了我的实验室,但其实我一开始给他的项目是在数据领域,主要做的是拍摄图像并生成单词,这是我强制给他的任务,一开始他并不喜欢。
贾斯汀:我的确也学到了很多东西。这个工作有3个阶段,第一个阶段就是匹配图像和文字,我们有图像也有文字,它们之间能匹配上多少,实际上无论是我的博士论文,还是第一篇学术出版物,都是使用场景图进行图像检索。
李飞飞:然后我们采用像素生成单词,贾斯汀和安德烈(Andrej Karpathy,OpenAI联合创始人)确实在这方面做了很多工作,但从像素世界生成和获取信息仍然是质量损失比较大的一种方式,后来贾斯汀做到了实时生成,这非常了不起。
贾斯汀:是的,2015年发表了一篇关于艺术风格神经算法的论文,他们展示了一些现实世界的照片,将其转换成梵高风格的图像,如果是2024年看到这样的事情,我们会习以为常,但在2015年,这让我大吃一惊,我花了整个周末的时间去阅读理解它,然后发现其实是一个非常简单的算法,大概有300行Lua(小脚本语言),速度很慢,所以它是一个基于优化的模型,你想要生成的每一张图像都需要运行这个优化循环,对生成的每张图像运行这个渐变效果,最后呈现的图片很漂亮,但我只想更快一些。
李飞飞:贾斯汀最后做到了,我认为这是他第一次体验到具有行业影响力的学术作品应用到工作研究中的感觉。
贾斯汀:当时很多人都看到这种艺术风格转变的东西,我和其他几个人同时想出了不同的方法来加快速度,只不过我的方法得到了很多关注。

02

解密空间智能
主持人:我读了你的书《我看见的世界:李飞飞自传》,这本书写得非常好,就像我们在与你交谈一样。你们的很多研究都是朝着空间、像素和智能的方向进行,包括现在你在做世界实验室,它围绕着空间智能,为什么现在决定成立一家公司来做这件事,是技术成熟了还是个人选择?
李飞飞:我的整个智能研究历程中都有一种寻找北极星的热情。研究生毕业后我以为我的北极星是讲述图像的故事,这是非常重要的视觉智能,是人工智能或通用人工智能的一部分,那时候我以为可能需要花100年才能做到,但后来贾斯汀和安德烈的研究成果让我觉得这个目标能更快实现。我热爱视觉智能,我相信每一个智能体看到世界、产生互动甚至是在其上建立文明,视觉空间智能都是不可或缺的,它和语言一样是文明的基础,甚至在某些方面历史可能更悠久。世界实验室是我们的北极星,是解锁空间智能的重要时刻,对我来说这个方向是正确的。就像贾斯汀说的,我们已经有了计算能力,对数据有了更深入地理解,与之前相比,我们更加成熟,在算法方面也取得了一些进步,世界实验室的联合创始人,Ben Mildenhall和Christoph Lassner,他们都在各自领域有着最前沿的研究,我们这个团队都在集中精力解锁空间智能。
来源:视频截图
主持人:能否解释一下什么是空间智能?
贾斯汀:空间智能是指机器在三维空间和时间中感知、推理和行动的能力。了解物体在三维空间和时间中的位置,以及世界上的互动如何影响那些三维位置。三维位置在时空中,两者都能感知到原因,生成交互真正将机器从主机或数据中心中带到现实的三维世界中来,使其更好地理解三维和四维世界。
主持人:我们是在谈论物理世界,还是在谈论一个抽象的世界概念?
贾斯汀:我认为两者都有,涵盖了我们长期的愿景,即使你正在生成内容,在3D(三维空间)中使用3D理解这样做有很多好处,有利于理解现实世界。
主持人:世界实验室的其他两位联合创始人都是各自领域绝对的传奇人物,你们四个人决定现在就出来经营这家公司,所以我很好奇现在是不是正确的时机。
贾斯汀:在获得博士学位后,我的职业生涯规划是成为一名独立研究员,我在想人工智能和计算机视觉的大问题是什么,最后得出结论是,过去十年主要是理解已经存在的数据,而接下来的十年关键是理解新数据。人们有智能手机,智能手机都有摄像头和传感器,它们在3D世界中不断搜集新的数据,我们希望将这些图像视为物理世界的通用传感器,并学会用它们来理解3D和4D世界。
我在博士后阶段对3D计算机视觉的研究发生了一个比较大的转折。当时我在博览会上和一些同事一起预测物体的3D形状,后来我真的被这个想法迷住了,其实3D数据很难单独获得,但是因为这里面存在非常强大的数学联系,我们的2D图像是3D世界的投影,这里面有很多数学结构我们可以利用,也有许多人在研究如何从大量的2D数据中反推世界的3D结构。
2020年,我们的联合创始人Ben Mildenhall,他发表了一篇关于NeRF(Neural Radiance Fields,神经辐射场,一种计算机视觉技术)的论文,可以算这个领域的突破性成就,这是一个非常简单、清晰的方法,可以从2D结构中推导出3D结构。这篇论文这点燃了整个3D计算机视觉领域的热情,也许这个领域之外的人可能不太理解,因为那也是LLM(大型语言模型)开始流行的时候,很多与语言建模有关的东西实际上已经在学术界得到了发展,甚至在我攻读博士学位期间,2014年,我与Andrej Karpathy一起做了一些语言建模方面的早期工作。
然后GPT-2时代的某个时刻,学术界已经无法再做这种模型了,因为它们占用了太多资源,但Ben提出的NeRF方法,可以在单个GPU上花几个小时来训练它们,所以我认为很多学术研究人员在集中精力解决核心算法的问题,开始思考可以推进这一领域的核心算法方法是什么,最终我与飞飞聊天时发现,她的观点很有说服力,让我想加入她的团队一起研究。
李飞飞:我确实想谈一个非常有趣的技术问题,大多数人在语言中工作并没有意识到这是计算机视觉领域,我们这些从事像素工作的人实际上对3D重建技术的研究比大家想象的要早,大概可以追溯到20世纪70年代。人类有两只眼睛,通常可以通过照片来尝试对几何图形进行三角测量,然后制作出3D形状,但其实这是一个非常困难的问题,直到今天还没有从根本上得到解决,整个领域流行的是一个3D的旧思维方式,当NeRF方法出现,这种3D技术开始真正融合。在计算机视觉领域的一段时间内,本来很难再谈论重建与生成,但突然在某个时刻,可以看到某些东西可以汇聚在一起并生成它,开始朝着正确的方向发展,这对计算机视觉来说是一个真正的重要时刻,但大多数人错过了它,因为我们没有像LLM那样经常谈论它。
主持人:目前AI发展的产出与你们正在研究的东西对比是什么结果,目前很流行的大型语言模型和空间智能之间是互补的关系吗?
贾斯汀:我们现在看到的大型语言模型和多模态语言模型,它们是底层表达其实是一种一维表示,我们讨论的上下文长度、Transformer、序列、注意力等从本质上看都是对世界的一维表达,这是一种非常自然的表示。最终我们会将其他模式融入到一维表达中。空间智能是对世界的三维表达,从算法的角度来看,这是在用不同方式处理数据并从中获得不同类型的输出,最后解决不同的问题。所以即使在课程级别,你也可以看到外界在说多模态LLMs可以很好地查看图像,但我认为它们的核心没有基本的3D表达。

李飞飞:我完全同意贾斯汀的观点,我认为讨论一维与三维表达是很重要的一个问题。语言从根本上来说是一种纯粹的生成信号,你去大自然,那里并没有这种信号,天空不会给你写文字,语言到语言的表达使得你可以用更通用性的内容进行训练并得出结果,但对于遵循物理定律的3D世界,它有自己的结构,要解决的是完全不同的问题,我们将从LLM中借鉴经验,更好地解决我们的问题,但本质上讲,它们是不同的问题。

主持人:所以语言这种一维表达可能是对物理世界的糟糕表示,它由人类生成的,可能信息传递过程中是有损耗的,而另一种生成AI模型的模式,它们由像素构成,我想问空间智能与2D视频有何不同?
贾斯汀:这里有必要理清两件事,一是底层表达,二是面向用户的功能。有时候可能会感到困惑,因为从根本上来说,我们看到的2D,是通过视网膜传输到大脑视觉中枢所形成的图像,大脑将你看到的2D图像或视频视为3D世界的投影,因此你可能会想做一些事情,比如移动物体、移动相机,原则上你可以用纯2D表示和模型来完成这些操作,但这并不适合作为模型正确执行的问题,例如对动态3D世界的2D投影进行建模是一个可能可行的函数,通过将3D表达放入模型的核心,模型正在处理的表示类型和你希望模型执行的任务之间将会更好地匹配,因此我们的赌注是研究出更多的3D表达,这将为用户提供更好的功能。
李飞飞:你知道为什么它是空间智能,不是平面像素智能?因为我认为智力的发展必须走向贾斯汀所说的可应用,如果你正确地看待进化论,智力发展最终使动物和人类能够在世界各地移动,彼此互动,创造文明,创造生命,无论你在这个3D世界中做什么,都可以将其转化为一项技术,即使其中一些服务看起来是2D,但它本质上是3D的。

03

空间智能与沉浸式体验
主持人:这种空间智能的用例是什么?

贾斯汀:空间智能模型能完成几种不同的事情,现在我们都习惯了诸如文生图、文生视频这样的应用,而我们可以想象空间智能在未来可以将目前的2D体验都升级为3D,我们生成的不只是图像或视频,而是得到一个完全模拟但可交互的3D世界,可应用于游戏、摄影、教育等行业中。

其实我们已经有能力创建虚拟互动世界,但是它的成本太高,基本需要花费数十亿美元和大量的开发时间,为了收回成本,一般会首先会运用在游戏中。如果社会确实有能力创造细节丰富的虚拟互动世界,并且降低了制作此类内容的成本,那么人们就会将其应用于其他方面,如果你能有一种个性化的3D体验,细节堪比那些花费数亿美元制作的3A视频游戏,你会不会心动?我觉得它可以满足那些小众市场,不是特定的产品或路线图,而是根据每个人的需求来定制这样的互动世界,我认为这会催生一种新型媒体。

主持人:在虚拟世界中,如果我打开一本书,那里面会有文字吗?这是一种完整的深度体验还是一种静态的场景?
贾斯汀随着时间的推移,我们会看到这项技术的进步,动态的确很难构建,目前可能静态会多一些,但长远来看,我们希望它是完全动态、完全可交互的。
就像我们公司的名字World Labs(世界实验室),就是去构建和理解世界。在计算机视觉的重建和生成中,我们经常会对人们可以做的事情进行区分或描绘,第一层是物体,比如麦克风、杯子、椅子等,先识别这些3D世界中的物体,然后升级到下一个级别,我认为他的场景就像是物体的组合,比如现在我们有一间录音室,里面有一张桌子和麦克风,人们坐在椅子上,还有一些物体的构图,但世界是一个超越场景的世界,就像场景可能是个别的事情,但我们想要打破界限,走出门外,比如站起来,走出门外,走到街上,看到汽车呼啸而过,看到树叶在移动,并能够与之互动等。
李飞飞:刚提到新媒体的确是一项令人兴奋的应用,现实世界和虚拟世界之间的界限是模糊的,现实世界是3D的,所以在数字世界中,你必须有3D表达才能与现实世界融合,2D和1D是没法有效与真实的3D世界交互,因此空间智能的应用可以是无限的。
主持人:贾斯汀谈论的第一个用例是生成虚拟世界,你们形容的更像是增强现实(AR)。
李飞飞:就在世界实验室成立的时候,苹果发布了愿景,他们用了“空间计算”这个词,我们当时看到的时候觉得苹果像偷了我们的概念一样,和我们非常像,不过还是不太一样,我们是空间智能。空间计算需要完全正确的空间智能,所以我们目前还不清楚它会是什么硬件形式,可能是护目镜、隐形眼镜,但可以肯定的是,它会成为真实世界和你可以做的事情之间的桥梁,无论是帮助你增强操作能力,比如即便你不是训练有素的机械师,也能在空间智能的帮助下修理汽车,还是用于娱乐,这项技术都将成为操作系统。
贾斯汀它是始终伴随着你的东西,也许可以帮助你解决日常生活中的任务。我对虚拟世界和物理世界之间的这种融合感到非常兴奋,如果你有能力完美地实时了解周围事物,那么这种融合会变得非常重要,它会让你弃用现实世界的大部分东西。我们现在为不同的用例拥有很多不同尺寸的屏幕,比如手机、iPad、电脑、电视、智能手表等,因为它们需要在不同的情境下给你呈现信息,但如果你有能力将虚拟内容与物理世界融合,那这些屏幕就都不需要了。
李飞飞:另一个典型案例是任何代理都能在物理世界中做事,人类可以使用这种混合艺术设备来做我原本不会做的事情,比如修理汽车,还有其他类型的代理,比如机器人,任何类型的机器人,不仅仅是人形机器人,根据定义,机器人的界面是3D世界,但他们的计算大脑根据定义是数字世界,所以机器人大脑与现实世界之间的行为联系必须是空间智能。
主持人:对于任何一家大型公司来说,尤其是那些要涉足不同的领域公司,你如何看待深度科技与特定领域应用的想法?
李飞飞:我们将自己视为一家深度科技公司,作为提供可以满足不同用例模型的平台公司。
贾斯汀:实际上我已经拥有了我的第一个VR,在研究生院戴上耳机,这是变革性技术体验之一,你戴上它,你会觉得天哪,这太疯狂了,我认为很多人第一次使用VR时都会有这种体验,所以很长一段时间我一直对这个空间感到兴奋。我很喜欢Vision Pro,我熬夜订购第一批产品,但我认为现实是它还没有成为面向大众市场的产品。
我们想成为一家深度科技公司,我们相信,有一些有趣的潜在基本问题需要得到解决,如果解决得好,可以应用于很多不同的领域,我们真的认为公司正在构建和实现空间智能的梦想。

04

如何打造世界一流的团队
主持人:这是需要大量技术来构建的。
贾斯汀:是的,这是一个非常困难的问题。很多人会笼统地看待人工智能人才,但对于我们这些在人工智能领域待了很久的人来说,会清楚地意识到需要很多不同类型的人才,你需要真正高质量的大规模工程,需要非常深入理解3D世界,所以当我们考虑团队建设时,我们会思考如何在这些不同的子领域找到绝对顶尖的人才,这是构建这个非常困难的事情所必需的。
李飞飞:在组建世界实验室的创始团队时,我一开始就锁定了一批杰出的科学家。贾斯汀作为我最好的学生之一,也是一个非常聪明的技术专家,而另外两个创始人,他们都是在各自领域有着杰出成就的人,Ben Milenhall在神经领域做了很多开创性工作,Christoph Lassner一直在计算机图形学界享有盛誉,他很有远见,早早开始研究先驱3D建模,在生成式对抗火热起来的5年前就在做这个事情。
主持人:这两位都是传奇人物,可以简单谈谈你如何看待团队建设吗?
李飞飞:到目前为止,我个人最自豪的是,我拥有一支强大的团队,从进入斯坦福大学开始,我就有幸与最聪明的年轻人一起工作。我们世界实验室聚集了一批人才,我们都是空间智能的忠实信徒。所有多学科人才,像系统工程、机器学习、生成式模型、建模、数据分析、图形视觉等等,无论是我们个人的研究、还是技术钻研甚至是个人爱好,我们都相信空间智能必须在此刻发生,这就是我们真正找到创始团队的方式,这种专注和他们的才华让我时刻感到谦卑,我真的很喜欢空间智能。
主持人:北极星就像你可以看到但永远也无法到达的东西,你怎么知道空间智能何时能实现,还是说你已经把它作为一种终身的研究去追求呢?
李飞飞:有真正的北极星和虚拟的北极星,我本来以为我的北极星需要100年才能触达,但贾斯汀和安德烈让我看到了用图像讲故事的可能。当用户和企业使用我们的模型来解锁他们对空间的需求时,空间智能的发展就会迎来一个重要的里程碑。
贾斯汀:我不认为会到达北极星,就像宇宙是一个巨大的不断演化的四维空间,空间智能只是理解它的所有深度,并弄清楚它的所有应用,我们今天有一套特定的想法,但我认为这趟旅程将会把我们带到现在甚至无法想象的地方。
李飞飞:技术的魅力在于开辟了更多的可能性和未知,随着我们研究的深入,未来的可能性将不断扩大。

第二期华夏基石数智时代领导力特训营热招中!

开班时间

10月25-27日  中国·北京

报名条件

本课程适合有意提升数智化领导力的企业中高层领导者

报名方式

请联系助教老师填写报名表并提交。报名确认后,将收到课程入学通知书及相关资料。

课程费用

1.5万/人。课程费用包含学费、教材费及参访交流等相关费用(不包含学员交通住宿等个人消费费用)。

证书颁发

课程结束后,完成全部学习任务的学员将获得课程结业证书。

报名咨询

富老师:13699120588

柳老师:15202171854

喜欢这篇文章

请为我点赞和在看

5.空间智能在未来可以将目前的2D体验都升级为3D,我们生成的不只是图像或视频,而是得到一个完全模拟但可交互的3D世界,可应用于游戏、摄影、教育等行业中。

来源 |  

管理智慧

咨询合作| 13699120588

文章仅代表作者本人观点,图片来源于视频截图

未来空间智能可以将2D体验全部升级为3D。
近日,被誉为“AI教母”的人工智能科学家李飞飞联合创办的World Labs(世界实验室)获得2.3亿美元融资的消息引发关注。融资不仅吸引了a16z、AMD、Intel、英伟达等知名投资机构和科技公司,还吸引了人工智能领域的许多知名人士。为何空间智能如此火热,它与现在流行的语言大模型有何不同?近日,李飞飞带着她的爱徒,同样也是世界实验室的联合创始人贾斯汀·约翰逊(Justin Johnson,以下简称“贾斯汀”)一起接受了a16z合伙人马丁·卡萨多(Martin Casado)的播客采访,为我们揭开了空间智能的神秘面纱。
李飞飞在访谈中把空间智能比喻为北极星,称自己的智能研究生涯一直在寻找和追求北极星,最终认定了空间智能。她相信每一个智能体看到世界、产生互动甚至是在其上建立文明,视觉空间智能都是不可或缺的,它和语言一样是文明的基础,甚至在某些方面历史可能更悠久。她也坦言目前还不清楚空间智能的硬件形式是什么,可能是护目镜、隐形眼镜,但可以肯定的是,它会成为真实世界和你可以做的事情之间的桥梁。最后李飞飞提到,当用户和企业使用他们的模型来解锁对空间的需求时,空间智能的发展就会迎来一个重要的里程碑。

精彩观点如下:

1.现在我们正处于寒武纪大爆发时期,除了文本之外,AI还能生成图片、视频、音频等,人工智能的发展让人感到非常惊喜。
2.不可忽视的一个核心要素就是计算,人工智能就是计算的故事,无论人们如何谈论它,都低估了它。
3.我热爱视觉智能,我相信每一个智能体看到世界、产生互动甚至是在其上建立文明,视觉空间智能都是不可或缺的,它和语言一样是文明的基础,甚至在某些方面历史可能更悠久。
4.空间智能是指机器在三维空间和时间中感知、推理和行动的能力。
5.空间智能在未来可以将目前的2D体验都升级为3D,我们生成的不只是图像或视频,而是得到一个完全模拟但可交互的3D世界,可应用于游戏、摄影、教育等行业中。

6.当用户和企业使用我们的模型来解锁他们对空间的需求时,空间智能的发展就会迎来一个重要的里程碑。

以下为对话全文(有删改):

01

与空间智能结缘
主持人:过去两年,我们看到了消费级人工智能公司和技术的爆发式增长,你们已经在AI领域研究了几十年,可以介绍一下你们是如何走到今天这一步的吗?
李飞飞:人工智能正处于一个激动人心的阶段,我个人已经在这个领域研究了二十多年,我们已经走出了上一轮人工智能寒冬。
我们看到了现代人工智能的诞生,看到了深度学习的兴起,看到了技术应用的可能性,比如各种语言模型。现在我们正处于寒武纪大爆发时期,除了文本之外,AI还能生成图片、视频、音频等,人工智能的发展让人感到非常惊喜。
主持人:你们在业内知名度很高,但普通人可能还不太熟悉你们,简单介绍一下自己,让大家更好地理解你们在做什么。
贾斯汀:我第一次接触人工智能是在本科结束的时候,我本科学的是数学和计算机,快毕业看到了当时发表的一篇著名论文——《Building High-level Features Using Large Scale Unsupervised Learning》,来自当时在谷歌工作的8位科学家。那是我第一次接触深度学习的概念,深深打动了我,我将它确定为下一个十年要做的事情。

来源:视频截图

进入人工智能研究领域的想法大概是2011年~2012年期间产生的,很显然,做这件事必须读研究生,去研究院才行,然后我就发现了在斯坦福大学的飞飞,她是当时世界上少数在这个研究领域的人。那时,深度学习和计算机视觉等技术才刚刚开始发展,我们看到了语言建模的开始,我们看到了计算机视觉的开始,我们还看到了一些现在称之为生成建模的早期部分,很多LLM(大型语言模型)的算法片段都是我在攻读博士学位期间想出来的。
有一段时间,我每天早上醒来都会阅读缓存好的新论文,就像拆开圣诞节礼物一样,充满了惊喜。每天会有一些惊人的新发现、新应用和新算法,过去这两年,人们或许才感受到人工智能带给他们的惊喜,而我们这些在行业内工作了十多年的人,早就体会过这种感觉了。
李飞飞:我比贾斯汀年长很多,我是从物理学的不同角度来接触人工智能的。物理学是一门教你思考大胆问题,引导你探索宇宙秘密的学科。这种思维训练激发了我的想象力,也就是智能,所以我选择攻读人工智能领域的博士学位并从事这方面的研究。
博士期间,人工智能在大众眼中还处于寒冬时期,但我不这么认为,因为冬眠期前机器学习、统计建模等都有进展,这些都是人工智能发展的力量。我自认为是探索人工智能和机器学习的第一代人,贾斯汀是研究深度学习的第一代人,所以机器学习是深度学习的先驱,我们现在正在尝试各种深度学习模型。
但在我博士课程结束时发生了一件事,我的助理教授发现人工智能中有一个被忽视的元素,它在数学上对于推动泛化很重要,但整个AI领域并没有考虑到它,而是把目光集中在数据上。我和我的学生可能比大多数人更早意识到,如果让数据驱动模型,可以释放出我们从未见过的力量,这是我们疯狂押注图像网络的原因。自然语言处理中存在成千上万个数据点,它们有自己的数据集,我们需要将其驱动到像今天互联网规模一样。
主持人:计算机视觉和生成式网络浪潮中,我们探讨过几个核心突破,其中一个是Transformer论文中提到的注意力稳定扩散,这是一种公平的思考方式,那还有没有其他元素的突破也推动了人工智能的发展?
贾斯汀:不可忽视的一个核心要素就是计算,人工智能就是计算的故事,无论人们如何谈论它,都低估了它。过去十年人类的计算能力增长是惊人的,在深度学习的计算机视觉领域取得突破的人是Alex Krizhevsky,他在2012年发表的一篇论文中谈到深度神经网络在ImageNet上表现非常出色,击败了飞飞一直在研究的其他算法。AlexNet(卷积神经网络)是一个有着6000万参数的深度神经网络,它在两台GTX 580上训练了六天,这是当时顶级的消费级显卡。我昨晚看了一些数字,Nvidia目前最棒的产品是GB200,你们知道GTX 580和GB200之间有多少原始计算因子吗?有数千个,所以我昨晚在GB200上重新运行了AlexNet,只需要5分钟。
李飞飞:贾斯汀提出了一个非常好的观点,2012年Alex的论文实际上是一个非常经典的模型。研究生期间,我看过一篇发表于1980年的文章,里面介绍的神经网络模型至少也有六七层,实际上AlexNet和CNN(卷积神经网络)之间,一个重要的不同之处就在GPU,它们需要的算力是不一样的。
主持人:我在读博士的时候也学过机器学习,不过很多都是预测模型,我记得你们研究的智能是只要理解视觉内容就能生成新的内容是吗?
李飞飞:生成模型很有趣,那时候我们在研究如何生成,我们也试图做一些字母或数字,但事实上,如果从概率分布的角度思考,可以用数学方法生成模型,理论上可行,但实际我们生成的东西不会给人留下任何印象,没什么用。所以我不得不提一下贾斯汀的博士学位,贾斯汀说他迷上了深度学习,所以来到了我的实验室,但其实我一开始给他的项目是在数据领域,主要做的是拍摄图像并生成单词,这是我强制给他的任务,一开始他并不喜欢。
贾斯汀:我的确也学到了很多东西。这个工作有3个阶段,第一个阶段就是匹配图像和文字,我们有图像也有文字,它们之间能匹配上多少,实际上无论是我的博士论文,还是第一篇学术出版物,都是使用场景图进行图像检索。
李飞飞:然后我们采用像素生成单词,贾斯汀和安德烈(Andrej Karpathy,OpenAI联合创始人)确实在这方面做了很多工作,但从像素世界生成和获取信息仍然是质量损失比较大的一种方式,后来贾斯汀做到了实时生成,这非常了不起。
贾斯汀:是的,2015年发表了一篇关于艺术风格神经算法的论文,他们展示了一些现实世界的照片,将其转换成梵高风格的图像,如果是2024年看到这样的事情,我们会习以为常,但在2015年,这让我大吃一惊,我花了整个周末的时间去阅读理解它,然后发现其实是一个非常简单的算法,大概有300行Lua(小脚本语言),速度很慢,所以它是一个基于优化的模型,你想要生成的每一张图像都需要运行这个优化循环,对生成的每张图像运行这个渐变效果,最后呈现的图片很漂亮,但我只想更快一些。
李飞飞:贾斯汀最后做到了,我认为这是他第一次体验到具有行业影响力的学术作品应用到工作研究中的感觉。
贾斯汀:当时很多人都看到这种艺术风格转变的东西,我和其他几个人同时想出了不同的方法来加快速度,只不过我的方法得到了很多关注。

02

解密空间智能
主持人:我读了你的书《我看见的世界:李飞飞自传》,这本书写得非常好,就像我们在与你交谈一样。你们的很多研究都是朝着空间、像素和智能的方向进行,包括现在你在做世界实验室,它围绕着空间智能,为什么现在决定成立一家公司来做这件事,是技术成熟了还是个人选择?
李飞飞:我的整个智能研究历程中都有一种寻找北极星的热情。研究生毕业后我以为我的北极星是讲述图像的故事,这是非常重要的视觉智能,是人工智能或通用人工智能的一部分,那时候我以为可能需要花100年才能做到,但后来贾斯汀和安德烈的研究成果让我觉得这个目标能更快实现。我热爱视觉智能,我相信每一个智能体看到世界、产生互动甚至是在其上建立文明,视觉空间智能都是不可或缺的,它和语言一样是文明的基础,甚至在某些方面历史可能更悠久。世界实验室是我们的北极星,是解锁空间智能的重要时刻,对我来说这个方向是正确的。就像贾斯汀说的,我们已经有了计算能力,对数据有了更深入地理解,与之前相比,我们更加成熟,在算法方面也取得了一些进步,世界实验室的联合创始人,Ben Mildenhall和Christoph Lassner,他们都在各自领域有着最前沿的研究,我们这个团队都在集中精力解锁空间智能。
来源:视频截图
主持人:能否解释一下什么是空间智能?
贾斯汀:空间智能是指机器在三维空间和时间中感知、推理和行动的能力。了解物体在三维空间和时间中的位置,以及世界上的互动如何影响那些三维位置。三维位置在时空中,两者都能感知到原因,生成交互真正将机器从主机或数据中心中带到现实的三维世界中来,使其更好地理解三维和四维世界。
主持人:我们是在谈论物理世界,还是在谈论一个抽象的世界概念?
贾斯汀:我认为两者都有,涵盖了我们长期的愿景,即使你正在生成内容,在3D(三维空间)中使用3D理解这样做有很多好处,有利于理解现实世界。
主持人:世界实验室的其他两位联合创始人都是各自领域绝对的传奇人物,你们四个人决定现在就出来经营这家公司,所以我很好奇现在是不是正确的时机。
贾斯汀:在获得博士学位后,我的职业生涯规划是成为一名独立研究员,我在想人工智能和计算机视觉的大问题是什么,最后得出结论是,过去十年主要是理解已经存在的数据,而接下来的十年关键是理解新数据。人们有智能手机,智能手机都有摄像头和传感器,它们在3D世界中不断搜集新的数据,我们希望将这些图像视为物理世界的通用传感器,并学会用它们来理解3D和4D世界。
我在博士后阶段对3D计算机视觉的研究发生了一个比较大的转折。当时我在博览会上和一些同事一起预测物体的3D形状,后来我真的被这个想法迷住了,其实3D数据很难单独获得,但是因为这里面存在非常强大的数学联系,我们的2D图像是3D世界的投影,这里面有很多数学结构我们可以利用,也有许多人在研究如何从大量的2D数据中反推世界的3D结构。
2020年,我们的联合创始人Ben Mildenhall,他发表了一篇关于NeRF(Neural Radiance Fields,神经辐射场,一种计算机视觉技术)的论文,可以算这个领域的突破性成就,这是一个非常简单、清晰的方法,可以从2D结构中推导出3D结构。这篇论文这点燃了整个3D计算机视觉领域的热情,也许这个领域之外的人可能不太理解,因为那也是LLM(大型语言模型)开始流行的时候,很多与语言建模有关的东西实际上已经在学术界得到了发展,甚至在我攻读博士学位期间,2014年,我与Andrej Karpathy一起做了一些语言建模方面的早期工作。
然后GPT-2时代的某个时刻,学术界已经无法再做这种模型了,因为它们占用了太多资源,但Ben提出的NeRF方法,可以在单个GPU上花几个小时来训练它们,所以我认为很多学术研究人员在集中精力解决核心算法的问题,开始思考可以推进这一领域的核心算法方法是什么,最终我与飞飞聊天时发现,她的观点很有说服力,让我想加入她的团队一起研究。
李飞飞:我确实想谈一个非常有趣的技术问题,大多数人在语言中工作并没有意识到这是计算机视觉领域,我们这些从事像素工作的人实际上对3D重建技术的研究比大家想象的要早,大概可以追溯到20世纪70年代。人类有两只眼睛,通常可以通过照片来尝试对几何图形进行三角测量,然后制作出3D形状,但其实这是一个非常困难的问题,直到今天还没有从根本上得到解决,整个领域流行的是一个3D的旧思维方式,当NeRF方法出现,这种3D技术开始真正融合。在计算机视觉领域的一段时间内,本来很难再谈论重建与生成,但突然在某个时刻,可以看到某些东西可以汇聚在一起并生成它,开始朝着正确的方向发展,这对计算机视觉来说是一个真正的重要时刻,但大多数人错过了它,因为我们没有像LLM那样经常谈论它。
主持人:目前AI发展的产出与你们正在研究的东西对比是什么结果,目前很流行的大型语言模型和空间智能之间是互补的关系吗?
贾斯汀:我们现在看到的大型语言模型和多模态语言模型,它们是底层表达其实是一种一维表示,我们讨论的上下文长度、Transformer、序列、注意力等从本质上看都是对世界的一维表达,这是一种非常自然的表示。最终我们会将其他模式融入到一维表达中。空间智能是对世界的三维表达,从算法的角度来看,这是在用不同方式处理数据并从中获得不同类型的输出,最后解决不同的问题。所以即使在课程级别,你也可以看到外界在说多模态LLMs可以很好地查看图像,但我认为它们的核心没有基本的3D表达。

李飞飞:我完全同意贾斯汀的观点,我认为讨论一维与三维表达是很重要的一个问题。语言从根本上来说是一种纯粹的生成信号,你去大自然,那里并没有这种信号,天空不会给你写文字,语言到语言的表达使得你可以用更通用性的内容进行训练并得出结果,但对于遵循物理定律的3D世界,它有自己的结构,要解决的是完全不同的问题,我们将从LLM中借鉴经验,更好地解决我们的问题,但本质上讲,它们是不同的问题。

主持人:所以语言这种一维表达可能是对物理世界的糟糕表示,它由人类生成的,可能信息传递过程中是有损耗的,而另一种生成AI模型的模式,它们由像素构成,我想问空间智能与2D视频有何不同?
贾斯汀:这里有必要理清两件事,一是底层表达,二是面向用户的功能。有时候可能会感到困惑,因为从根本上来说,我们看到的2D,是通过视网膜传输到大脑视觉中枢所形成的图像,大脑将你看到的2D图像或视频视为3D世界的投影,因此你可能会想做一些事情,比如移动物体、移动相机,原则上你可以用纯2D表示和模型来完成这些操作,但这并不适合作为模型正确执行的问题,例如对动态3D世界的2D投影进行建模是一个可能可行的函数,通过将3D表达放入模型的核心,模型正在处理的表示类型和你希望模型执行的任务之间将会更好地匹配,因此我们的赌注是研究出更多的3D表达,这将为用户提供更好的功能。
李飞飞:你知道为什么它是空间智能,不是平面像素智能?因为我认为智力的发展必须走向贾斯汀所说的可应用,如果你正确地看待进化论,智力发展最终使动物和人类能够在世界各地移动,彼此互动,创造文明,创造生命,无论你在这个3D世界中做什么,都可以将其转化为一项技术,即使其中一些服务看起来是2D,但它本质上是3D的。

03

空间智能与沉浸式体验
主持人:这种空间智能的用例是什么?

贾斯汀:空间智能模型能完成几种不同的事情,现在我们都习惯了诸如文生图、文生视频这样的应用,而我们可以想象空间智能在未来可以将目前的2D体验都升级为3D,我们生成的不只是图像或视频,而是得到一个完全模拟但可交互的3D世界,可应用于游戏、摄影、教育等行业中。

其实我们已经有能力创建虚拟互动世界,但是它的成本太高,基本需要花费数十亿美元和大量的开发时间,为了收回成本,一般会首先会运用在游戏中。如果社会确实有能力创造细节丰富的虚拟互动世界,并且降低了制作此类内容的成本,那么人们就会将其应用于其他方面,如果你能有一种个性化的3D体验,细节堪比那些花费数亿美元制作的3A视频游戏,你会不会心动?我觉得它可以满足那些小众市场,不是特定的产品或路线图,而是根据每个人的需求来定制这样的互动世界,我认为这会催生一种新型媒体。

主持人:在虚拟世界中,如果我打开一本书,那里面会有文字吗?这是一种完整的深度体验还是一种静态的场景?
贾斯汀随着时间的推移,我们会看到这项技术的进步,动态的确很难构建,目前可能静态会多一些,但长远来看,我们希望它是完全动态、完全可交互的。
就像我们公司的名字World Labs(世界实验室),就是去构建和理解世界。在计算机视觉的重建和生成中,我们经常会对人们可以做的事情进行区分或描绘,第一层是物体,比如麦克风、杯子、椅子等,先识别这些3D世界中的物体,然后升级到下一个级别,我认为他的场景就像是物体的组合,比如现在我们有一间录音室,里面有一张桌子和麦克风,人们坐在椅子上,还有一些物体的构图,但世界是一个超越场景的世界,就像场景可能是个别的事情,但我们想要打破界限,走出门外,比如站起来,走出门外,走到街上,看到汽车呼啸而过,看到树叶在移动,并能够与之互动等。
李飞飞:刚提到新媒体的确是一项令人兴奋的应用,现实世界和虚拟世界之间的界限是模糊的,现实世界是3D的,所以在数字世界中,你必须有3D表达才能与现实世界融合,2D和1D是没法有效与真实的3D世界交互,因此空间智能的应用可以是无限的。
主持人:贾斯汀谈论的第一个用例是生成虚拟世界,你们形容的更像是增强现实(AR)。
李飞飞:就在世界实验室成立的时候,苹果发布了愿景,他们用了“空间计算”这个词,我们当时看到的时候觉得苹果像偷了我们的概念一样,和我们非常像,不过还是不太一样,我们是空间智能。空间计算需要完全正确的空间智能,所以我们目前还不清楚它会是什么硬件形式,可能是护目镜、隐形眼镜,但可以肯定的是,它会成为真实世界和你可以做的事情之间的桥梁,无论是帮助你增强操作能力,比如即便你不是训练有素的机械师,也能在空间智能的帮助下修理汽车,还是用于娱乐,这项技术都将成为操作系统。
贾斯汀它是始终伴随着你的东西,也许可以帮助你解决日常生活中的任务。我对虚拟世界和物理世界之间的这种融合感到非常兴奋,如果你有能力完美地实时了解周围事物,那么这种融合会变得非常重要,它会让你弃用现实世界的大部分东西。我们现在为不同的用例拥有很多不同尺寸的屏幕,比如手机、iPad、电脑、电视、智能手表等,因为它们需要在不同的情境下给你呈现信息,但如果你有能力将虚拟内容与物理世界融合,那这些屏幕就都不需要了。
李飞飞:另一个典型案例是任何代理都能在物理世界中做事,人类可以使用这种混合艺术设备来做我原本不会做的事情,比如修理汽车,还有其他类型的代理,比如机器人,任何类型的机器人,不仅仅是人形机器人,根据定义,机器人的界面是3D世界,但他们的计算大脑根据定义是数字世界,所以机器人大脑与现实世界之间的行为联系必须是空间智能。
主持人:对于任何一家大型公司来说,尤其是那些要涉足不同的领域公司,你如何看待深度科技与特定领域应用的想法?
李飞飞:我们将自己视为一家深度科技公司,作为提供可以满足不同用例模型的平台公司。
贾斯汀:实际上我已经拥有了我的第一个VR,在研究生院戴上耳机,这是变革性技术体验之一,你戴上它,你会觉得天哪,这太疯狂了,我认为很多人第一次使用VR时都会有这种体验,所以很长一段时间我一直对这个空间感到兴奋。我很喜欢Vision Pro,我熬夜订购第一批产品,但我认为现实是它还没有成为面向大众市场的产品。
我们想成为一家深度科技公司,我们相信,有一些有趣的潜在基本问题需要得到解决,如果解决得好,可以应用于很多不同的领域,我们真的认为公司正在构建和实现空间智能的梦想。

04

如何打造世界一流的团队
主持人:这是需要大量技术来构建的。
贾斯汀:是的,这是一个非常困难的问题。很多人会笼统地看待人工智能人才,但对于我们这些在人工智能领域待了很久的人来说,会清楚地意识到需要很多不同类型的人才,你需要真正高质量的大规模工程,需要非常深入理解3D世界,所以当我们考虑团队建设时,我们会思考如何在这些不同的子领域找到绝对顶尖的人才,这是构建这个非常困难的事情所必需的。
李飞飞:在组建世界实验室的创始团队时,我一开始就锁定了一批杰出的科学家。贾斯汀作为我最好的学生之一,也是一个非常聪明的技术专家,而另外两个创始人,他们都是在各自领域有着杰出成就的人,Ben Milenhall在神经领域做了很多开创性工作,Christoph Lassner一直在计算机图形学界享有盛誉,他很有远见,早早开始研究先驱3D建模,在生成式对抗火热起来的5年前就在做这个事情。
主持人:这两位都是传奇人物,可以简单谈谈你如何看待团队建设吗?
李飞飞:到目前为止,我个人最自豪的是,我拥有一支强大的团队,从进入斯坦福大学开始,我就有幸与最聪明的年轻人一起工作。我们世界实验室聚集了一批人才,我们都是空间智能的忠实信徒。所有多学科人才,像系统工程、机器学习、生成式模型、建模、数据分析、图形视觉等等,无论是我们个人的研究、还是技术钻研甚至是个人爱好,我们都相信空间智能必须在此刻发生,这就是我们真正找到创始团队的方式,这种专注和他们的才华让我时刻感到谦卑,我真的很喜欢空间智能。
主持人:北极星就像你可以看到但永远也无法到达的东西,你怎么知道空间智能何时能实现,还是说你已经把它作为一种终身的研究去追求呢?
李飞飞:有真正的北极星和虚拟的北极星,我本来以为我的北极星需要100年才能触达,但贾斯汀和安德烈让我看到了用图像讲故事的可能。当用户和企业使用我们的模型来解锁他们对空间的需求时,空间智能的发展就会迎来一个重要的里程碑。
贾斯汀:我不认为会到达北极星,就像宇宙是一个巨大的不断演化的四维空间,空间智能只是理解它的所有深度,并弄清楚它的所有应用,我们今天有一套特定的想法,但我认为这趟旅程将会把我们带到现在甚至无法想象的地方。
李飞飞:技术的魅力在于开辟了更多的可能性和未知,随着我们研究的深入,未来的可能性将不断扩大。

第二期华夏基石数智时代领导力特训营热招中!

开班时间

10月25-27日  中国·北京

报名条件

本课程适合有意提升数智化领导力的企业中高层领导者

报名方式

请联系助教老师填写报名表并提交。报名确认后,将收到课程入学通知书及相关资料。

课程费用

1.5万/人。课程费用包含学费、教材费及参访交流等相关费用(不包含学员交通住宿等个人消费费用)。

证书颁发

课程结束后,完成全部学习任务的学员将获得课程结业证书。

报名咨询

富老师:13699120588

柳老师:15202171854

喜欢这篇文章

请为我点赞和在看

展开
打开“财经头条”阅读更多精彩资讯
APP内打开