真正的多模态智能意味着什么?
LLM 范式对感觉建模真的有意义吗?
为什么人类的感知如此轻松、如此直觉,却又如此强大?
谢赛宁认为,多模态模型缺少了某种根本性的东西。如果不先建立超级感知能力,就无法建立超级智能。
在他看来,超感知能力并不是指高级传感器或更好的摄像头。它讲述的是数字生命体如何真正体验世界,吸收源源不断的输入并从中学习。
谢赛宁团队划分了多模态智能从现代到未来的发展路径:
- 0. 仅语言理解:缺乏感官能力;推理仅限于文本和符号。目前的多语言学习模型已经超越了这一阶段,但仍然保留着其偏见的痕迹。
- 1. 语义感知:将像素解析为对象、属性和关系。这与多层线性模型中存在的强大的多模态“展示与讲述”能力相对应。
- 2. 流式事件认知:处理实时、无界的流,同时主动解释和响应正在发生的事件。这与目前将多语言学习者(MLLM)打造为实时助手的努力方向一致。
- 3. 内隐三维空间认知:将视频理解为三维世界的投影。智能体必须知道物体存在什么、它们在哪里、它们之间如何关联以及它们如何随时间变化。目前的多模态模型在这方面仍然非常有限。
- 4. 预测性世界建模:大脑通过基于先前预期预测潜在的世界状态来进行“无意识推断”。目前的多模态系统没有能够预测未来状态、维持持久记忆或进行推理和计划的内部模型。
团队尝试了一种全新的原型——预测感知(predictive sensing)。他们在 Cambrian-S 上训练了一个潜变量帧预测(LFP)头,并在推理过程中用两种方式对 “surprise” 的程度进行估计及利用:
surprise-driven 的记忆管理—— 压缩或跳过不令人惊讶的帧,将算力集中在 “surprise” 的帧上
surprise-driven 的事件分割—— 利用 “surprise” 的峰值来检测事件边界或场景变化
基准测试空间超感知
常用的视频多语言语言学习(MLLM)基准测试大多侧重于语言理解和语义感知,而忽略了超感知所需的更高级的空间和时间推理能力。
为了弥补这一关键缺陷,团队引入了 VSI-S,这是一个专门用于探测空间感知中这些更复杂、更持续的方面的新基准测试,由两个部分组成:
VSI-SRecall:长时域空间观测和召回。
VSI-SCount:在不断变化的视角和场景下进行连续计数
研究人员为向 Cambrian-1 模型输入视频设立了几种实验条件:
Multiple Frames (多帧): 模型处理从视频片段中均匀采样的 32 帧。这是文献中表示视频输入的标准方法。
Single Frame (单帧): 模型仅处理给定视频片段的中间帧。此条件测试对最少的、上下文核心的视觉信息的依赖程度。
Frame Captions (帧字幕): 模型不接收视频帧,而是接收对应于相同 32 帧均匀采样图像的字幕。
为了更好地理解这些条件下的性能,团队引入了另外两个基准:
结果表明,Cambrian-1 是一款基于图像的多级逻辑学习模型 (MLLM),无需任何视频后训练,即可在多个基准测试中取得合理的性能,在某些情况下,其准确率甚至比随机水平高出 10-30%。这表明,这些基准测试所针对的大部分知识都可以通过标准的单图像指令调优流程获得。
然而,在两个现有数据集 VSI-Bench 和 Tomato 上,该模型的性能低于随机水平。对于 VSI-Bench,这主要是因为其空间理解问题需要真正的视频感知以及有针对性的数据整理和训练。对于 Tomato,该基准测试要求理解来自高帧率视频的精细细节,所以这种结果也在预期之内。
使用文本字幕代替视觉输入也能显著提升性能,在 EgoSchema 等基准测试中,该模型的准确率比随机猜测高出 20% 以上。
当前范式下的空间感知
研究人员从 10 个不同视频类型和标注的来源收集数据,以提高多样性。这种方法得到的数据集比从单一来源获得的同等规模数据集要稳健得多。数据处理流程分为三步:
标注的真实视频:多模态视觉空间推理依赖于对三维几何和空间关系的扎实理解。
模拟数据:利用具身模拟器程序化地生成空间相关的视频轨迹和问答对,在 ProcTHOR场景中渲染了 625 个视频。
未标注的真实视频:从 YouTube 收集了约 1.9 万个房间巡览视频,并整合了来自机器人学习数据集的视频。
数据有效性排名为:带注释的真实视频 > 模拟数据 > 伪注释图像。
结果证明,更强的基础模型在空间感知任务上能产生更好的 SFT 性能。
更强大的基础模型能够接触到更多通用视频数据,可以提高 SFT 后的空间感知能力。此外,采用更强大的基础模型的 SFT 能够增强空间理解能力。
结论
研究团队认为,要实现超级智能,人工智能系统需要超越目前大多数多层逻辑模型(MLLM)所关注的基于文本的知识和语义感知,同时发展空间认知和预测性世界模型。
尽管 Cambrian-S 在标准基准测试中表现良好,但其在 VSI-S 数据集上的结果揭示了当前 MLLM 范式的局限性。研究人员利用潜在帧预测和意外估计技术,构建了预测感知原型来处理无界视觉流。该原型提升了 Cambrian-S 在 VSI-S 数据集上的性能。
相关人员表示,目前的基准测试、数据集和模型设计在质量、规模和泛化能力方面仍存在局限性,原型仅作为概念验证。未来的工作应探索更多样化、更具具身性的场景,并与视觉、语言和世界建模领域的最新进展建立更紧密的联系。
参考资料:
https://arxiv.org/pdf/2511.04670