谢赛宁、李飞飞、LeCun 联手提出多模态大模型新范式,建立模型的“超级感知能力”

智车科技

2周前

常用的视频多语言语言学习(MLLM)基准测试大多侧重于语言理解和语义感知,而忽略了超感知所需的更高级的空间和时间推理能力。

11月7日,纽约大学助理教授谢赛宁发布了新成果 Cambrian-S。合著者还有 AI“教母”李飞飞和图灵奖得主 Yann LeCun。

谢赛宁和研究团队于去年构建了 Cambrian-1 模型,这是一个用于图像的多模态模型开放式探索项目。谢赛宁在社交媒体中写道,在扩展 Cambrian 系列之前,他们面临三个问题:

常用的视频多语言语言学习(MLLM)基准测试大多侧重于语言理解和语义感知,而忽略了超感知所需的更高级的空间和时间推理能力。

11月7日,纽约大学助理教授谢赛宁发布了新成果 Cambrian-S。合著者还有 AI“教母”李飞飞和图灵奖得主 Yann LeCun。

谢赛宁和研究团队于去年构建了 Cambrian-1 模型,这是一个用于图像的多模态模型开放式探索项目。谢赛宁在社交媒体中写道,在扩展 Cambrian 系列之前,他们面临三个问题:

展开
打开“财经头条”阅读更多精彩资讯
APP内打开