从谷歌到字节,现阶段所有主流多模态模型,集体不及格

智车科技

12小时前

为了防止模型在训练数据中“背答案”,研究团队引入了ISC描述符对候选图像与LAION和CommonCrawl等主流预训练语料库进行去重。...数据清晰地表明,现阶段的多模态模型距离“视觉百科全书”还存在巨大差距。

提起多模态模型这个概念,人们并不陌生。

从国内的“豆包”,到国外的“香蕉”,都是人们喜闻乐见的“图像创作和PS大师”。

但是,你敢信吗?最顶尖的AI在“看图识物”这件人类幼儿都能轻松做到的事情上,竟然集体不及格。

这个结论似乎与我们日常对AI的看法背道而驰。它们会写诗,会编程,甚至会代理人们的手机和电脑,但在面对一张清晰的照片时,却总是无法回答一个再简单不过的问题:“这是什么?”

把稀有的兰花认成野花,把哥特教堂看成普通楼房,甚至给世界名画安上一位错误的作者。这可不是偶然性的小失误,而是一次系统性的“视觉失忆”。

今天凌晨,刚刚发布Kimi 2.5以补全多模态能力的月之暗面,推出了一个名为WorldVQA的全新评测基准。它就像一把精确而锋利的手术刀,直接切开了当下多模态模型华丽能力表象之下的知识空洞。

评测结果可以说是触目惊心:表现最好的模型,准确率也只能达到47.4%,距离及格线都还差得很远。

人们不由得思考一个被长期忽视的真相:我们每天使用的“高智能”AI,或许压根没能在视觉领域建立起一个可靠、真实的“百科全书”。

AI或许更像一个擅长讲故事的描述者,而非一个准确理解世界的观察者。WorldVQA的出现,正是要扫清幻觉与事实交杂的模糊地带,为衡量多模态模型的视觉知识真实性树立一把精确的标尺。

01 现有评测的“障眼法”:记忆和推理混为一谈

多模态模型的发展取决于两种截然不同的能力:一是推理,即处理逻辑与关系;二是知识,即将感官输入映射到事实现实。

而目前,评估多模态模型的主流方法是视觉问答(Visual Question Answering, VQA),如常见的MMMU、MMStar和SimpleVQA等基准测试。

现在我们假想一个问题:给AI一个公司的Logo,并询问它该公司的名称和成立时间。

显然,回答这个问题需要两步,先是识别图片中的Logo,再去回忆成立时间。若是模型给出了错误的回答,我们根本无法判断错误出现在哪一步。

因此,这类基准测试看似能全面测试AI的视觉能力,实则存在混淆“知识记忆”和“逻辑推理”的致命缺陷。

除此之外,别忘了很多模型还可以凭借OCR(光学字符识别)这项经典技术,在评测中蒙混过关。模型不必认出图片中的内容,直接通过“读出”图片上的文字标签来抄答案得分。

如果说视觉感知与定位是多模态模型的眼睛,那么语义记忆和知识就是多模态模型的大脑。

人们无法定位模型视觉能力的短板究竟在哪,这正是知识记忆与逻辑推理的耦合所导致的盲区。

02 WorldVQA设计哲学:回归原子化的视觉事实

月之暗面的研究团队针对上述困境而设计了WorldVQA,其核心思想很简单:剥离一切干扰,只测试最原子化的视觉知识。

也就是说,WorldVQA中的每个问题都只用于测试一个最基础、不可再分的视觉知识。为此,该评测基准必须遵循以下四个技术原则:

1.原子隔离(Atomic Isolation)

所有问题均为单跳(single-hop,即一步完成),模型需要将视觉信息直接映射到一个具体的专有或分类学名称,明确排除任何涉及OCR、计算或多跳知识检索的任务。因此,前面例子中需要多个步骤才能回答的问题将不会出现。

粒度对齐也是一项关键的技术约束:模型的回答必须在分类学上足够精确。例如,看到一只泰迪却只回答“狗”也会被当作回答错误。

2.分类多样性(Taxonomic Diversity)

WorldVQA总共覆盖了九种语义类别:自然环境、地理建筑、文化艺术、物品产品、交通工具、娱乐产品、品牌标识、体育运动和公众人物。

数据的分布被刻意设计为相对平衡的状态,既包含埃菲尔铁塔等地标型建筑,也包含罕见的特定植物品种,以此全面探测模型知识库的边界。

3.数据完整性(Data Integrity)

为了防止模型在训练数据中“背答案”,研究团队引入了ISC描述符对候选图像与LAION和Common Crawl等主流预训练语料库进行去重。

这里的ISC(实例级语义内容)描述符是一种用于视觉位置识别领域的算法技术,它能够将一张图像转换为一个特征向量,可用于判断一张图像是否与常用预训练语料库中的图像高度相似。

在WorldVQA的流程中,首先对每张候选图像生成一个ISC向量,并将之与常用预训练语料库中的所有图像的ISC向量进行比对,计算余弦相似度。当相似度高于95%时,则可认为模型在训练时已经见过这张图像,该图像会因为污染样本而被丢弃。

如此一来,WorldVQA中测试的“图像-答案对”都是模型在训练阶段从未见过的,若能答对问题,即可反映真实的视觉能力。

此外,候选样本采用自动化模型审核和人工盲审的双重机制。其中,自动化审核使用了Gemini-3-Pro来检查图像清晰度、语义唯一性和上下文完整性;人工盲审交给不知道标准答案的标注员单独作答,只要产生分歧则触发人工复核。

4.高饱和度上限(High Saturation Ceiling)

评测集在构建时采用基于模型性能的难度分层机制:研究团队将五个前沿多模态模型集成,并用它对所有候选图像样本进行评估。

为了检验区分能力,五个模型都能回答的正确样本将被剔除;正确率较高的简单样本也会被故意降低采样频率。因此,最终的评测基准对顶尖模型也具有相当高的挑战性。

03 评测结果:全员不及格

按照上面的原则,研究人员在WorldVQA中加入了3500个经过严格筛选的“图像-答案对”。但评测结果却无情地揭示了当前多模态模型在视觉知识领域上严重的能力缺失:

首先是整体准确率连50%都不到的悲惨事实。

Gemini-3-Pro作为公认的全球顶级AI模型、Kimi-K2.5凭借“主场优势”,虽然位列前二,但只能分别取得47.4%和46.3%的正确率;专攻多模态领域的字节跳动和Anthropic旗下的产品准确率则未能达到40%。

数据清晰地表明,现阶段的多模态模型距离“视觉百科全书”还存在巨大差距。

当我们将目光转移到表格的右侧,就会发现不同模型在九大领域中的表现极其不均衡。

从雷达图中可以看到,大部分模型很擅长体育运动和品牌标识等网络数据充足的领域。综合得分第一和第二的Gemini-3-Pro和Kimi-K2.5表现尤为突出。

反观自然环境和文化艺术等需要积累深厚的专业知识的领域,各位“职业选手”的表现都不尽如人意,因为模型往往会因为无法准确判断细分门类而给出笼统的上位词,比如前面提到的“泰迪与狗”。

最后,更可怕的事实是:几乎所有模型都表现出了过度的自信。

首先来看可靠性图表:用于衡量模型对自己能力的评估是否准确。

横轴(Stated Confidence)代表模型自己声称的置信度,也就是模型的信心;

纵轴(Actual Accuracy)是在模型生成的信心水平下,实际回答正确的概率。

可以看到,所有模型在声称自己有95%以上的信心时,实际准确率连70%都不到,纯属“一本正经地胡说八道”。其中Kimi-K2.5在高信心水平下能达到接近70%的准确率,自我认知相对最准确。

然后再看置信度分布:用于展示模型习惯给出多高的信心分数。

Gemini-3-Pro可谓是一马当先,证明它总是会说自己“非常确定”,即便是它压根没看懂图里到底有什么,也就是缺乏对“不确定性”的表达能力。

从企业角度来看,模型给出自信满满的回答有助于提升用户交互体验和留存率,毕竟大多数用户提问后绝不愿意得到一个模棱两可、不一定正确的答案。

但与此同时,过度的自信也证明现阶段多模态模型缺乏对自己知识边界的可靠内部表征,这也是幻觉产生的根本原因之一。

04 结语:WorldVQA打破“视觉智能已成熟”的幻觉

如今,图像生成、图像编辑甚至是视频生成等AI应用大行其道,人们很容易就会产生一种错觉:视觉领域的智能已经成熟,AI已经看懂了这个世界。

常见的文生图和图像编辑等功能,与月之暗面团队测试的视觉问答,在技术上高度相关但方向相反。前者从语义生成视觉,后者从视觉推断语义。生成能力强并不代表理解能力强,二者虽然共享部分多模态对齐机制,但底层能力却有天壤之别。

WorldVQA已经用冰冷的数据告诉我们,多模态模型在理解侧的能力远未达标。

月之暗面的这项研究,没有在AI应用的热潮中追寻“AI能做什么”,二是沉入底层探究一个更本质的问题:当AI充满自信地给出结果时,它到底是在回忆、猜测,还是真正的理解?

答案已经呼之欲出:模型不仅在自然和文化等长尾领域的知识匮乏,还普遍“不知道自己不知道”。即便面对完全陌生的事物,它也会自信地编造一个听起来十分合理、让人不会怀疑的名字。这种来自于底层机制的系统性幻觉,正是当前多模态AI不可信任的根源。

向未来的视角更进一步,当前的多模态模型若是连静态二维图像的实体都无法准确判别,人们又怎么能去期待AI在动态且复杂的三维世界中构建世界模型?

WorldVQA已经打破技术乐观主义的美梦,迫使人们必须承认:通往视觉智能的道路,才刚刚开始。

而任何关于“AGI即将实现”的宣言,在顶尖AI连看图识物都答不对的事实面前,似乎都显得有些轻率。

原文标题 : 从谷歌到字节,现阶段所有主流多模态模型,集体不及格

为了防止模型在训练数据中“背答案”,研究团队引入了ISC描述符对候选图像与LAION和CommonCrawl等主流预训练语料库进行去重。...数据清晰地表明,现阶段的多模态模型距离“视觉百科全书”还存在巨大差距。

提起多模态模型这个概念,人们并不陌生。

从国内的“豆包”,到国外的“香蕉”,都是人们喜闻乐见的“图像创作和PS大师”。

但是,你敢信吗?最顶尖的AI在“看图识物”这件人类幼儿都能轻松做到的事情上,竟然集体不及格。

这个结论似乎与我们日常对AI的看法背道而驰。它们会写诗,会编程,甚至会代理人们的手机和电脑,但在面对一张清晰的照片时,却总是无法回答一个再简单不过的问题:“这是什么?”

把稀有的兰花认成野花,把哥特教堂看成普通楼房,甚至给世界名画安上一位错误的作者。这可不是偶然性的小失误,而是一次系统性的“视觉失忆”。

今天凌晨,刚刚发布Kimi 2.5以补全多模态能力的月之暗面,推出了一个名为WorldVQA的全新评测基准。它就像一把精确而锋利的手术刀,直接切开了当下多模态模型华丽能力表象之下的知识空洞。

评测结果可以说是触目惊心:表现最好的模型,准确率也只能达到47.4%,距离及格线都还差得很远。

人们不由得思考一个被长期忽视的真相:我们每天使用的“高智能”AI,或许压根没能在视觉领域建立起一个可靠、真实的“百科全书”。

AI或许更像一个擅长讲故事的描述者,而非一个准确理解世界的观察者。WorldVQA的出现,正是要扫清幻觉与事实交杂的模糊地带,为衡量多模态模型的视觉知识真实性树立一把精确的标尺。

01 现有评测的“障眼法”:记忆和推理混为一谈

多模态模型的发展取决于两种截然不同的能力:一是推理,即处理逻辑与关系;二是知识,即将感官输入映射到事实现实。

而目前,评估多模态模型的主流方法是视觉问答(Visual Question Answering, VQA),如常见的MMMU、MMStar和SimpleVQA等基准测试。

现在我们假想一个问题:给AI一个公司的Logo,并询问它该公司的名称和成立时间。

显然,回答这个问题需要两步,先是识别图片中的Logo,再去回忆成立时间。若是模型给出了错误的回答,我们根本无法判断错误出现在哪一步。

因此,这类基准测试看似能全面测试AI的视觉能力,实则存在混淆“知识记忆”和“逻辑推理”的致命缺陷。

除此之外,别忘了很多模型还可以凭借OCR(光学字符识别)这项经典技术,在评测中蒙混过关。模型不必认出图片中的内容,直接通过“读出”图片上的文字标签来抄答案得分。

如果说视觉感知与定位是多模态模型的眼睛,那么语义记忆和知识就是多模态模型的大脑。

人们无法定位模型视觉能力的短板究竟在哪,这正是知识记忆与逻辑推理的耦合所导致的盲区。

02 WorldVQA设计哲学:回归原子化的视觉事实

月之暗面的研究团队针对上述困境而设计了WorldVQA,其核心思想很简单:剥离一切干扰,只测试最原子化的视觉知识。

也就是说,WorldVQA中的每个问题都只用于测试一个最基础、不可再分的视觉知识。为此,该评测基准必须遵循以下四个技术原则:

1.原子隔离(Atomic Isolation)

所有问题均为单跳(single-hop,即一步完成),模型需要将视觉信息直接映射到一个具体的专有或分类学名称,明确排除任何涉及OCR、计算或多跳知识检索的任务。因此,前面例子中需要多个步骤才能回答的问题将不会出现。

粒度对齐也是一项关键的技术约束:模型的回答必须在分类学上足够精确。例如,看到一只泰迪却只回答“狗”也会被当作回答错误。

2.分类多样性(Taxonomic Diversity)

WorldVQA总共覆盖了九种语义类别:自然环境、地理建筑、文化艺术、物品产品、交通工具、娱乐产品、品牌标识、体育运动和公众人物。

数据的分布被刻意设计为相对平衡的状态,既包含埃菲尔铁塔等地标型建筑,也包含罕见的特定植物品种,以此全面探测模型知识库的边界。

3.数据完整性(Data Integrity)

为了防止模型在训练数据中“背答案”,研究团队引入了ISC描述符对候选图像与LAION和Common Crawl等主流预训练语料库进行去重。

这里的ISC(实例级语义内容)描述符是一种用于视觉位置识别领域的算法技术,它能够将一张图像转换为一个特征向量,可用于判断一张图像是否与常用预训练语料库中的图像高度相似。

在WorldVQA的流程中,首先对每张候选图像生成一个ISC向量,并将之与常用预训练语料库中的所有图像的ISC向量进行比对,计算余弦相似度。当相似度高于95%时,则可认为模型在训练时已经见过这张图像,该图像会因为污染样本而被丢弃。

如此一来,WorldVQA中测试的“图像-答案对”都是模型在训练阶段从未见过的,若能答对问题,即可反映真实的视觉能力。

此外,候选样本采用自动化模型审核和人工盲审的双重机制。其中,自动化审核使用了Gemini-3-Pro来检查图像清晰度、语义唯一性和上下文完整性;人工盲审交给不知道标准答案的标注员单独作答,只要产生分歧则触发人工复核。

4.高饱和度上限(High Saturation Ceiling)

评测集在构建时采用基于模型性能的难度分层机制:研究团队将五个前沿多模态模型集成,并用它对所有候选图像样本进行评估。

为了检验区分能力,五个模型都能回答的正确样本将被剔除;正确率较高的简单样本也会被故意降低采样频率。因此,最终的评测基准对顶尖模型也具有相当高的挑战性。

03 评测结果:全员不及格

按照上面的原则,研究人员在WorldVQA中加入了3500个经过严格筛选的“图像-答案对”。但评测结果却无情地揭示了当前多模态模型在视觉知识领域上严重的能力缺失:

首先是整体准确率连50%都不到的悲惨事实。

Gemini-3-Pro作为公认的全球顶级AI模型、Kimi-K2.5凭借“主场优势”,虽然位列前二,但只能分别取得47.4%和46.3%的正确率;专攻多模态领域的字节跳动和Anthropic旗下的产品准确率则未能达到40%。

数据清晰地表明,现阶段的多模态模型距离“视觉百科全书”还存在巨大差距。

当我们将目光转移到表格的右侧,就会发现不同模型在九大领域中的表现极其不均衡。

从雷达图中可以看到,大部分模型很擅长体育运动和品牌标识等网络数据充足的领域。综合得分第一和第二的Gemini-3-Pro和Kimi-K2.5表现尤为突出。

反观自然环境和文化艺术等需要积累深厚的专业知识的领域,各位“职业选手”的表现都不尽如人意,因为模型往往会因为无法准确判断细分门类而给出笼统的上位词,比如前面提到的“泰迪与狗”。

最后,更可怕的事实是:几乎所有模型都表现出了过度的自信。

首先来看可靠性图表:用于衡量模型对自己能力的评估是否准确。

横轴(Stated Confidence)代表模型自己声称的置信度,也就是模型的信心;

纵轴(Actual Accuracy)是在模型生成的信心水平下,实际回答正确的概率。

可以看到,所有模型在声称自己有95%以上的信心时,实际准确率连70%都不到,纯属“一本正经地胡说八道”。其中Kimi-K2.5在高信心水平下能达到接近70%的准确率,自我认知相对最准确。

然后再看置信度分布:用于展示模型习惯给出多高的信心分数。

Gemini-3-Pro可谓是一马当先,证明它总是会说自己“非常确定”,即便是它压根没看懂图里到底有什么,也就是缺乏对“不确定性”的表达能力。

从企业角度来看,模型给出自信满满的回答有助于提升用户交互体验和留存率,毕竟大多数用户提问后绝不愿意得到一个模棱两可、不一定正确的答案。

但与此同时,过度的自信也证明现阶段多模态模型缺乏对自己知识边界的可靠内部表征,这也是幻觉产生的根本原因之一。

04 结语:WorldVQA打破“视觉智能已成熟”的幻觉

如今,图像生成、图像编辑甚至是视频生成等AI应用大行其道,人们很容易就会产生一种错觉:视觉领域的智能已经成熟,AI已经看懂了这个世界。

常见的文生图和图像编辑等功能,与月之暗面团队测试的视觉问答,在技术上高度相关但方向相反。前者从语义生成视觉,后者从视觉推断语义。生成能力强并不代表理解能力强,二者虽然共享部分多模态对齐机制,但底层能力却有天壤之别。

WorldVQA已经用冰冷的数据告诉我们,多模态模型在理解侧的能力远未达标。

月之暗面的这项研究,没有在AI应用的热潮中追寻“AI能做什么”,二是沉入底层探究一个更本质的问题:当AI充满自信地给出结果时,它到底是在回忆、猜测,还是真正的理解?

答案已经呼之欲出:模型不仅在自然和文化等长尾领域的知识匮乏,还普遍“不知道自己不知道”。即便面对完全陌生的事物,它也会自信地编造一个听起来十分合理、让人不会怀疑的名字。这种来自于底层机制的系统性幻觉,正是当前多模态AI不可信任的根源。

向未来的视角更进一步,当前的多模态模型若是连静态二维图像的实体都无法准确判别,人们又怎么能去期待AI在动态且复杂的三维世界中构建世界模型?

WorldVQA已经打破技术乐观主义的美梦,迫使人们必须承认:通往视觉智能的道路,才刚刚开始。

而任何关于“AGI即将实现”的宣言,在顶尖AI连看图识物都答不对的事实面前,似乎都显得有些轻率。

原文标题 : 从谷歌到字节,现阶段所有主流多模态模型,集体不及格

展开
打开“财经头条”阅读更多精彩资讯
APP内打开