Google,掌握人类进入高质量数字世界入口的搜索引擎,是数字世界的王者。
但是到了2022年人工智能爆发时代,Open AI 推出ChatGPT征服人类世界的巴别塔语言、Midjourney和Stable Diffusion分别推出图片生成模型,到了2024年Open AI继续推出Sora视频生成模型。
而在自动驾驶领域,2009就开始自动驾驶项目的Google Waymo在2025年受到特斯拉强烈的挑战,特斯拉号称可以迅速泛化拓展而且成本极低。
那么Google在人工智能AI时代是没落了么?
最近一款叫做Nona-banana的图片生成软件火出圈了,各个玩家爱好竞相转载使用Nona-banana生成的图片,绝对是可以以假乱真,让你惊叹到世界还有什么是真实的。而这款图片生成大模型,就来自于Google。
而在文字领域里面,国内文化的朋友估计沉寂在Deepseek、豆包、Kimi乐此不疲,也有玩ChatGPT、Claude、Perplexity的极大的增效文案工作。
但是Google的Gemini 和NotebookLM各种大神们一用一个不吭声,太好用了。
在视频生成领域,有很多类似的案例模型,好吧我铺垫不下去了,直接进入今天的正文 Google的视频生成模型 Genie 3。他是DeepMind 最近推出更新的一个视频生成模型,这是一款真正称得上世界模型的大模型。
虽然我们熟悉的自动驾驶领域最近也有不少公司表示自己采用世界模型做辅助驾驶或者自动驾驶。
但说实话国内的更多的是概念和营销,至于这个“世界模型”概念瓶子里面装的是啥,谁也不知道,反正大家也不懂,各家喊这个词无非就是想占领关键词和用户心智。
而Google的 Genie 3 可能真的能够打开自动驾驶或者辅助驾驶的世界模型大门。
Genie 3是什么?什么是世界模型?
Genie 3 是一个能够根据文本或图像生成交互式环境的世界模型。您可以以720p 和每秒 24 帧的速度实时浏览这些场景。世界在几分钟内保持视觉一致,并且您可以通过新的提示随时更改它。想象一下您可以进入并控制的视频生成。
我们先来回顾下,什么是世界模型,之前文章《世界模型 World Model 101》也分享过。
世界模型是一种人工智能系统,它学习 世界的行为方式,并对其进行未来设想。它不仅能预测下一个单词或下一个视频帧,还能预测当你采取行动时整个环境应该如何演变。这使得智能体能够在对其做出反应的模拟环境中练习技能。这是迈向具身智能的一步,也是迈向更通用人工智能的关键要素。
世界模型概念很大,能装下各种概念,但当前国内的世界模型应该都是伪命题,或着极度夸大的概念。
Genie 3 如何将提示转变为可玩的世界?
这个过程感觉很神奇,但简单来说它的工作原理如下。
1. 类似于GPT类型模型,通过Prompt给 Genie 一个提示
你输入的世界描述,可以是一句话、一个手稿,甚至是一张照片。这个提示是种子,是AI想象力的起点。它为Genie 3提供了你想要创造的世界的核心概念。
2. 人工智能解读你的想法
在这个阶段,Genie 3 会利用其训练数据(包括大量视频和图像数据)来猜测你的世界应该是什么样子。当你描述“上海城市”时,它知道应该包含时尚的建筑、外滩、人群。当你描述“行走的汽车”时,它知道汽车行驶的动态模型,光线是如何反射的,以及汽车与周围环境如何相互作用的。这就是它的世界模型,它理解物理世界以及存在的物理法则。
3. 快速构建 3D 环境
Genie 3 利用这种内部理解,开始实时创建世界。不过,它不像传统游戏引擎那样创建完整的 3D 文件。相反,每次你移动或与世界互动时,它都会生成一个新的世界帧。这个过程非常快,以 720p 分辨率每秒渲染 24 帧,让你感觉就像在玩游戏一样,没有任何延迟或卡顿。
4. 世界回应你
这就是 Genie 的与众不同之处。当你行走时,AI 会从你的视角预测下一个场景应该是什么样子。
你按下“前进”键。模型生成下一帧,显示你的角色向前移动,建筑物越来越近,城镇广场上的人们继续他们的行动。你撞到一堵墙。模型从训练数据中得知你无法穿过墙壁,因此它会停止你的移动并显示你撞到了墙。这并不是因为它有“撞墙”规则,而是因为它从之前的真实视频中学习到了这一点。
Genie 3最终呈现的是持久且可玩的现实
Genie 3 的最终输出与传统的生成视频截然不同。你不再只是观看,而是置身其中。实时互动。
您的指令处理完毕后,您便可掌控一个栩栩如生、栩栩如生的世界。
Genie 3 以实时响应的模拟方式运行,以 720p 分辨率和每秒 24 帧的速度实时渲染每一帧新内容。这种低延迟体验让您身临其境。您可以行走、跳跃并与物体互动,世界会自然地做出反应,提供堪比现代电子游戏的响应速度。记忆的力量Genie 3 最卓越的成就之一是其视觉记忆。在早期的生成模型中,世界经常会“忘记”它在前一帧中创造的内容。如果你移动一个物体并转身离开,它可能会消失或重新出现在错误的位置。
然而,Genie 3 能够保持环境一致性约一分钟。如果你掉下一个球并绕过一个角落,当你回来时它仍然在那里。这种保持物体永久性和一致性的能力是一项意义深远的技术成就,它使模拟环境可信且稳定。
Genie 3 可提示改变的世界事件
Genie 3 的实时交互功能允许对世界本身进行即时修改。这项名为“可提示的世界事件”的功能,已被证明能够彻底改变创造力和叙事方式。在模拟环境中,你可以输入新的提示,例如“下雨”或“添加一头巨大的飞鲸”,AI 会立即整合这些新元素,无需重新开始。
Genie 3 背后的技术创新
要在 Genie 3 中实现高度的可控性和实时交互性,需要重大的技术突破。在每一帧的自回归生成过程中,模型必须考虑先前生成的随时间增长的轨迹。例如,如果用户在一分钟后再次访问某个位置,模型必须参考一分钟前的相关信息。为了实现实时交互性,这种计算必须每秒进行多次,以响应新的用户输入。
为了使AI生成的世界具有沉浸感,它们必须在很长一段时间内保持物理一致性。然而,自回归生成环境通常比生成完整视频更难,因为误差往往会随着时间的推移而累积。尽管挑战重重,Genie 3的环境在几分钟内仍能保持基本一致,视觉记忆甚至可以追溯到一分钟前。
Genie 3 的一致性是一项新兴能力。其他方法,例如 NeRF 和高斯分布,我们在自动驾驶仿真中常见的底层技术,他们也能实现一致的可导航 3D 环境,但是他们依赖现有数据的采集然后进行恢复或者修改。相比之下,Genie 3 生成的世界更加动态和丰富,因为它们是根据世界描述和用户操作逐帧创建的,而不是修改的。
这里就可以理解基于NeRF和3D高斯的仿真世界模型,可能不是真正的世界模型,他们可能是靠数据积累或者记录所有真实世界的数据然后压缩了而已。
至于Genie 3采用的是什么技术,目前 Genie 3的论文没有发布。但是根据Genie 2论文的介绍,Genie 3技术底层还是基于Transformer。
视觉人工智能,不管现在大火的VLA 都采用一种叫做Vision Transformer (ViT)的技术。
Genie 3采用了基于ViT创新的内存高效的 ST-transformer 架构,空间-时间Transformer网络,可以分为两个部分:
Spatial-Transformer 它通过自注意力机制,能够捕捉实时车速、传感器连接性、距离以及车流方向等多种因素决定的、不断变化的空间模式。通过多头注意力机制,还能同时考虑相似性、连通性和协方差等多种依赖模式。
长程时间Transformer:能有效捕捉跨多个时间步的长程双向时间依赖关系。与传统一步步预测不同,时间Transformer可以同时进行多步预测,直接从“无误差”的历史数据中预测未来多个时间点,从而有效抑制预测误差的传播和累积,并支持并行训练和预测,提高了效率和可扩展性。
也就是实现了时空的双向捕捉和编码。
此外还有双向Transformer解码器:MaskGIT采用了一种新颖的图像合成范式,利用双向Transformer解码器,改进图像生成领域中Transformer模型的效率和质量。
Genie 的“交互式环境”本质上就是一个视频游戏:你可以感知它,也可以对它采取行动。这是对 ChatGPT、Claude、Gemini、Grok 甚至图像/视频模型(Imagen 4或Veo 3 )等 LLM 的质的升级。
Genie 3 有望对人工智能领域产生巨大影响。
这是迈向通用人工智能 (AGI) 的一步。包括谷歌 DeepMind 在内的许多专家都将 Genie 3 这样的“世界模型”视为迈向通用人工智能 (AGI) 的关键里程碑。
通过从未标记的视频数据中学习世界的基本规则,Genie 3 展现出比以往 AI 模型更深入、更直观的理解现实运作方式。这种模拟物理属性和因果关系的能力被认为是构建能够在现实世界中推理和行动的真正智能 AI 代理的必要条件。
对于自动驾驶和机器人研究来说,Genie 3 提供了一个无限的“沙盒”。训练机器人和自主系统应对所有可能场景非常困难、昂贵,而且往往很危险。Genie 3 轻松解决了这个问题,它允许研究人员即时生成动态世界,让多个独立智能体可以通过反复试验进行学习。这可能会加速机器人技术和自动驾驶汽车的进步。
然后,如果对这个世界模型进行微调打通汽车的执行器电机,刹车,转向的控制。蒸馏到车端进行控车,那么世界模型应用到自动驾驶就真正成功。
Genie 3 不仅仅局限于人工智能研究,它还可能彻底改变游戏、教育和娱乐行业。它使创作者能够通过简单的文本提示生成可玩的交互式世界。游戏设计师可以快速制作创意原型,教育工作者可以构建沉浸式互动课程,而故事讲述者可以创作让用户身临其境的生动故事。
最重要的是,与前代产品相比,Gennie 3 的重要性在于它克服了诸多限制。它能够生成 720p、24 fps 的交互式体验,并保持长达一分钟的视觉记忆,这无疑是一项巨大的技术成就。该模型为 genAI 模型的功能树立了新的标准,并凸显了 AI 创作内容从被动消费到主动参与的转变。
Genie 3 能做什么应用?
这项技术将在多个领域开辟了无限的可能性:
快速游戏开发:游戏设计师可以勾勒出想法并立即看到它们变成现实,无需花费数月时间进行开发即可测试游戏玩法。
人工智能训练和机器人技术:机器人、自动驾驶和人工智能代理可以学习导航 Genie 3 生成的复杂世界,从而使它们在现实世界中变得更加智能。
教育与创造力:教师、学生和讲故事的人可以创建互动课程或故事,使学习变得有趣且身临其境。
虚拟和增强现实:Genie 3 可以提供新的 VR 体验,任何人都可以即时构建和探索世界。
也就是说技术在这里,就等着产品经理们挖掘场景落地应用了。
Genie 3 目前的缺陷?
虽然 Genie 3 突破了世界模型所能实现的界限,但Google团队也在介绍Genie提出必须承认其目前的局限性:
行动空间有限。尽管可触发的世界事件允许进行广泛的环境干预,但它们不一定由代理本身执行。代理可直接执行的行动范围目前受到限制。
与其他代理的交互和模拟。准确建模共享环境中多个独立代理之间的复杂交互仍然是一个持续的研究挑战。
准确表示真实世界的位置。Genie 3 目前无法以完美的地理精度模拟真实世界的位置。
文本渲染。通常只有在输入世界描述中提供时才会生成清晰易读的文本。
交互时长有限。该模型目前支持几分钟的持续交互,但无法支持长达数小时的交互。
写在最后
目前,Genie 3并未推出给大家用,Google 的DeepMind表示,将向有限数量的测试人员提供 Genie 3 作为研究预览版。所以,大家只能说尽请期待,但这个Genie 3或着他背后的技术可能真正构建一个世界模型。
而有了一个真正的世界模型,世界或许会有另外一个景象。
相信此刻,先进和嗅觉敏锐的辅助驾驶、自动驾驶公司都在研究Genie 3。
参考文章以及图片
*未经准许严禁转载和摘录-
原文标题 : 谷歌Genie 3 - 打开“世界模型”通往自动驾驶的大门
Google,掌握人类进入高质量数字世界入口的搜索引擎,是数字世界的王者。
但是到了2022年人工智能爆发时代,Open AI 推出ChatGPT征服人类世界的巴别塔语言、Midjourney和Stable Diffusion分别推出图片生成模型,到了2024年Open AI继续推出Sora视频生成模型。
而在自动驾驶领域,2009就开始自动驾驶项目的Google Waymo在2025年受到特斯拉强烈的挑战,特斯拉号称可以迅速泛化拓展而且成本极低。
那么Google在人工智能AI时代是没落了么?
最近一款叫做Nona-banana的图片生成软件火出圈了,各个玩家爱好竞相转载使用Nona-banana生成的图片,绝对是可以以假乱真,让你惊叹到世界还有什么是真实的。而这款图片生成大模型,就来自于Google。
而在文字领域里面,国内文化的朋友估计沉寂在Deepseek、豆包、Kimi乐此不疲,也有玩ChatGPT、Claude、Perplexity的极大的增效文案工作。
但是Google的Gemini 和NotebookLM各种大神们一用一个不吭声,太好用了。
在视频生成领域,有很多类似的案例模型,好吧我铺垫不下去了,直接进入今天的正文 Google的视频生成模型 Genie 3。他是DeepMind 最近推出更新的一个视频生成模型,这是一款真正称得上世界模型的大模型。
虽然我们熟悉的自动驾驶领域最近也有不少公司表示自己采用世界模型做辅助驾驶或者自动驾驶。
但说实话国内的更多的是概念和营销,至于这个“世界模型”概念瓶子里面装的是啥,谁也不知道,反正大家也不懂,各家喊这个词无非就是想占领关键词和用户心智。
而Google的 Genie 3 可能真的能够打开自动驾驶或者辅助驾驶的世界模型大门。
Genie 3是什么?什么是世界模型?
Genie 3 是一个能够根据文本或图像生成交互式环境的世界模型。您可以以720p 和每秒 24 帧的速度实时浏览这些场景。世界在几分钟内保持视觉一致,并且您可以通过新的提示随时更改它。想象一下您可以进入并控制的视频生成。
我们先来回顾下,什么是世界模型,之前文章《世界模型 World Model 101》也分享过。
世界模型是一种人工智能系统,它学习 世界的行为方式,并对其进行未来设想。它不仅能预测下一个单词或下一个视频帧,还能预测当你采取行动时整个环境应该如何演变。这使得智能体能够在对其做出反应的模拟环境中练习技能。这是迈向具身智能的一步,也是迈向更通用人工智能的关键要素。
世界模型概念很大,能装下各种概念,但当前国内的世界模型应该都是伪命题,或着极度夸大的概念。
Genie 3 如何将提示转变为可玩的世界?
这个过程感觉很神奇,但简单来说它的工作原理如下。
1. 类似于GPT类型模型,通过Prompt给 Genie 一个提示
你输入的世界描述,可以是一句话、一个手稿,甚至是一张照片。这个提示是种子,是AI想象力的起点。它为Genie 3提供了你想要创造的世界的核心概念。
2. 人工智能解读你的想法
在这个阶段,Genie 3 会利用其训练数据(包括大量视频和图像数据)来猜测你的世界应该是什么样子。当你描述“上海城市”时,它知道应该包含时尚的建筑、外滩、人群。当你描述“行走的汽车”时,它知道汽车行驶的动态模型,光线是如何反射的,以及汽车与周围环境如何相互作用的。这就是它的世界模型,它理解物理世界以及存在的物理法则。
3. 快速构建 3D 环境
Genie 3 利用这种内部理解,开始实时创建世界。不过,它不像传统游戏引擎那样创建完整的 3D 文件。相反,每次你移动或与世界互动时,它都会生成一个新的世界帧。这个过程非常快,以 720p 分辨率每秒渲染 24 帧,让你感觉就像在玩游戏一样,没有任何延迟或卡顿。
4. 世界回应你
这就是 Genie 的与众不同之处。当你行走时,AI 会从你的视角预测下一个场景应该是什么样子。
你按下“前进”键。模型生成下一帧,显示你的角色向前移动,建筑物越来越近,城镇广场上的人们继续他们的行动。你撞到一堵墙。模型从训练数据中得知你无法穿过墙壁,因此它会停止你的移动并显示你撞到了墙。这并不是因为它有“撞墙”规则,而是因为它从之前的真实视频中学习到了这一点。
Genie 3最终呈现的是持久且可玩的现实
Genie 3 的最终输出与传统的生成视频截然不同。你不再只是观看,而是置身其中。实时互动。
您的指令处理完毕后,您便可掌控一个栩栩如生、栩栩如生的世界。
Genie 3 以实时响应的模拟方式运行,以 720p 分辨率和每秒 24 帧的速度实时渲染每一帧新内容。这种低延迟体验让您身临其境。您可以行走、跳跃并与物体互动,世界会自然地做出反应,提供堪比现代电子游戏的响应速度。记忆的力量Genie 3 最卓越的成就之一是其视觉记忆。在早期的生成模型中,世界经常会“忘记”它在前一帧中创造的内容。如果你移动一个物体并转身离开,它可能会消失或重新出现在错误的位置。
然而,Genie 3 能够保持环境一致性约一分钟。如果你掉下一个球并绕过一个角落,当你回来时它仍然在那里。这种保持物体永久性和一致性的能力是一项意义深远的技术成就,它使模拟环境可信且稳定。
Genie 3 可提示改变的世界事件
Genie 3 的实时交互功能允许对世界本身进行即时修改。这项名为“可提示的世界事件”的功能,已被证明能够彻底改变创造力和叙事方式。在模拟环境中,你可以输入新的提示,例如“下雨”或“添加一头巨大的飞鲸”,AI 会立即整合这些新元素,无需重新开始。
Genie 3 背后的技术创新
要在 Genie 3 中实现高度的可控性和实时交互性,需要重大的技术突破。在每一帧的自回归生成过程中,模型必须考虑先前生成的随时间增长的轨迹。例如,如果用户在一分钟后再次访问某个位置,模型必须参考一分钟前的相关信息。为了实现实时交互性,这种计算必须每秒进行多次,以响应新的用户输入。
为了使AI生成的世界具有沉浸感,它们必须在很长一段时间内保持物理一致性。然而,自回归生成环境通常比生成完整视频更难,因为误差往往会随着时间的推移而累积。尽管挑战重重,Genie 3的环境在几分钟内仍能保持基本一致,视觉记忆甚至可以追溯到一分钟前。
Genie 3 的一致性是一项新兴能力。其他方法,例如 NeRF 和高斯分布,我们在自动驾驶仿真中常见的底层技术,他们也能实现一致的可导航 3D 环境,但是他们依赖现有数据的采集然后进行恢复或者修改。相比之下,Genie 3 生成的世界更加动态和丰富,因为它们是根据世界描述和用户操作逐帧创建的,而不是修改的。
这里就可以理解基于NeRF和3D高斯的仿真世界模型,可能不是真正的世界模型,他们可能是靠数据积累或者记录所有真实世界的数据然后压缩了而已。
至于Genie 3采用的是什么技术,目前 Genie 3的论文没有发布。但是根据Genie 2论文的介绍,Genie 3技术底层还是基于Transformer。
视觉人工智能,不管现在大火的VLA 都采用一种叫做Vision Transformer (ViT)的技术。
Genie 3采用了基于ViT创新的内存高效的 ST-transformer 架构,空间-时间Transformer网络,可以分为两个部分:
Spatial-Transformer 它通过自注意力机制,能够捕捉实时车速、传感器连接性、距离以及车流方向等多种因素决定的、不断变化的空间模式。通过多头注意力机制,还能同时考虑相似性、连通性和协方差等多种依赖模式。
长程时间Transformer:能有效捕捉跨多个时间步的长程双向时间依赖关系。与传统一步步预测不同,时间Transformer可以同时进行多步预测,直接从“无误差”的历史数据中预测未来多个时间点,从而有效抑制预测误差的传播和累积,并支持并行训练和预测,提高了效率和可扩展性。
也就是实现了时空的双向捕捉和编码。
此外还有双向Transformer解码器:MaskGIT采用了一种新颖的图像合成范式,利用双向Transformer解码器,改进图像生成领域中Transformer模型的效率和质量。
Genie 的“交互式环境”本质上就是一个视频游戏:你可以感知它,也可以对它采取行动。这是对 ChatGPT、Claude、Gemini、Grok 甚至图像/视频模型(Imagen 4或Veo 3 )等 LLM 的质的升级。
Genie 3 有望对人工智能领域产生巨大影响。
这是迈向通用人工智能 (AGI) 的一步。包括谷歌 DeepMind 在内的许多专家都将 Genie 3 这样的“世界模型”视为迈向通用人工智能 (AGI) 的关键里程碑。
通过从未标记的视频数据中学习世界的基本规则,Genie 3 展现出比以往 AI 模型更深入、更直观的理解现实运作方式。这种模拟物理属性和因果关系的能力被认为是构建能够在现实世界中推理和行动的真正智能 AI 代理的必要条件。
对于自动驾驶和机器人研究来说,Genie 3 提供了一个无限的“沙盒”。训练机器人和自主系统应对所有可能场景非常困难、昂贵,而且往往很危险。Genie 3 轻松解决了这个问题,它允许研究人员即时生成动态世界,让多个独立智能体可以通过反复试验进行学习。这可能会加速机器人技术和自动驾驶汽车的进步。
然后,如果对这个世界模型进行微调打通汽车的执行器电机,刹车,转向的控制。蒸馏到车端进行控车,那么世界模型应用到自动驾驶就真正成功。
Genie 3 不仅仅局限于人工智能研究,它还可能彻底改变游戏、教育和娱乐行业。它使创作者能够通过简单的文本提示生成可玩的交互式世界。游戏设计师可以快速制作创意原型,教育工作者可以构建沉浸式互动课程,而故事讲述者可以创作让用户身临其境的生动故事。
最重要的是,与前代产品相比,Gennie 3 的重要性在于它克服了诸多限制。它能够生成 720p、24 fps 的交互式体验,并保持长达一分钟的视觉记忆,这无疑是一项巨大的技术成就。该模型为 genAI 模型的功能树立了新的标准,并凸显了 AI 创作内容从被动消费到主动参与的转变。
Genie 3 能做什么应用?
这项技术将在多个领域开辟了无限的可能性:
快速游戏开发:游戏设计师可以勾勒出想法并立即看到它们变成现实,无需花费数月时间进行开发即可测试游戏玩法。
人工智能训练和机器人技术:机器人、自动驾驶和人工智能代理可以学习导航 Genie 3 生成的复杂世界,从而使它们在现实世界中变得更加智能。
教育与创造力:教师、学生和讲故事的人可以创建互动课程或故事,使学习变得有趣且身临其境。
虚拟和增强现实:Genie 3 可以提供新的 VR 体验,任何人都可以即时构建和探索世界。
也就是说技术在这里,就等着产品经理们挖掘场景落地应用了。
Genie 3 目前的缺陷?
虽然 Genie 3 突破了世界模型所能实现的界限,但Google团队也在介绍Genie提出必须承认其目前的局限性:
行动空间有限。尽管可触发的世界事件允许进行广泛的环境干预,但它们不一定由代理本身执行。代理可直接执行的行动范围目前受到限制。
与其他代理的交互和模拟。准确建模共享环境中多个独立代理之间的复杂交互仍然是一个持续的研究挑战。
准确表示真实世界的位置。Genie 3 目前无法以完美的地理精度模拟真实世界的位置。
文本渲染。通常只有在输入世界描述中提供时才会生成清晰易读的文本。
交互时长有限。该模型目前支持几分钟的持续交互,但无法支持长达数小时的交互。
写在最后
目前,Genie 3并未推出给大家用,Google 的DeepMind表示,将向有限数量的测试人员提供 Genie 3 作为研究预览版。所以,大家只能说尽请期待,但这个Genie 3或着他背后的技术可能真正构建一个世界模型。
而有了一个真正的世界模型,世界或许会有另外一个景象。
相信此刻,先进和嗅觉敏锐的辅助驾驶、自动驾驶公司都在研究Genie 3。
参考文章以及图片
*未经准许严禁转载和摘录-
原文标题 : 谷歌Genie 3 - 打开“世界模型”通往自动驾驶的大门