李飞飞首个「空间智能」模型发布：一张图，生成一个 3D 世界

财经头条

提升一亿中产阶级阅读效率

打开

创业邦

3周前

研究团队认为，3D世界生成可与其他人工智能工具自然地结合。

来源丨学术头条（ID：SciTouTiao）

今日凌晨，由「AI 教母」李飞飞联合创办的 World Labs 发布了他们的第一个「空间智能」模型，只需一张图，就可以生成一个逼真的 3D 世界。

据介绍，对于输入的图像，这一「空间智能」系统可以估算出 3D 几何图形，填充场景中未见的部分，创建新的内容，实现各个方位的 3D 世界构建。

例如，当你输入图片：

你会获得这样一个 3D 世界：

与生成式 AI 工具生成的图片或视频等 2D 内容不同，以 3D 形式生成的内容具有更好的控制性和一致性。而且，该模型还可以适应各种场景类型和艺术风格，比如生成不同的相机效果、3D 效果以及经典绘画风格的 3D 内容。

这将改变我们制作电影、游戏、模拟器和其他物理世界数字表现形式的方式。

以下为官方完整短片：

相机效果

World Labs 团队在官方博客中写道，输出的 3D 场景可以在浏览器中实时呈现，且能够实现完全的相机控制。

这意味着你可以像在电子游戏中一样使用自由移动的相机来探索它们，甚至可以模拟 3D 相机效果，如浅景深（即只有距离摄像机一定距离的物体才能对焦）或多轴变焦（同时调整相机的位置和视野）。

1.浅景深模拟效果

‍2.‍多轴变焦效果

3D 效果

大多数生成模型预测像素，而预测 3D 场景则有很多好处：

持久现实：世界一旦生成，就会一直存在。即使你把视线移开，再回来时，场景也不会改变。

实时控制：生成场景后，你可以在场景中实时移动。你可以留心观察一朵花的细节，也可以窥探某个角落，看看会有什么发现。

正确的几何形状：生成的世界符合 3D 几何的基本物理规则。它们具有一种实体感和深度感。这与某些人工智能生成视频的不真实感形成了鲜明的对比。

可视化 3D 场景的最简单方法是绘制深度图，其中每个像素的颜色取决于其与相机的距离：

你可以使用 3D 场景结构来构建互动效果——只需点击一下，就能与场景互动：

你还可以制作特效，使场景动画化：

走进绘画世界

World Labs 团队还尝试窥探了一些创意杰作背后的世界，从梵高、霍珀、修拉和康丁斯基的作品中生成了他们最喜欢的世界。重要的一点是，这一「空间模型」可以生成原画中没有的内容。一起来欣赏 3D 版世界名画：

3D-原生生成式 AI 的无限可能

研究团队认为，3D 世界生成可与其他人工智能工具自然地结合。例如，你可以首先使用文本到图像模型生成图像，从而从基于文本创建世界。

他们还与一些创作者合作探索了 3D 原生生成式 AI 工作流带来的各种可能性。

例如，Brittani Natali 在生成的世界中精心设计了相机路径，通过三部短片唤起不同的情绪，其工作流程结合了 World Labs 的技术和 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等工具：

研究团队表示，这些成果是他们生成 3D 世界的首个早期预览。他们正在努力改进生成的 3D 世界的大小和逼真度，且在尝试与用户互动的新方法。