Google“AI奥运会”:用游戏基准测试模型真实能力

智车科技

2周前

由于现有的狼人杀规则各不相同,身份过于复杂,评测基准选定了经典的8人局游戏模式(2狼人+1医生+1预言家+4平民),并规定AI只能通过纯自然语言进行沟通与合作、欺骗与反欺骗。

AI新产品每天接连发布,测试基准和平台也是层出不穷。

不过,你是否想过,游戏也能用来测试AI?

2026年2月初,Google和Kaggle一起想出了一个新点子:在Kaggle的Game Arena上开展一次前所未有的“AI奥运会”。

比赛项目一共有三个:

在国际象棋的棋盘上,Gemini 3 Pro和Gemini 3 Flash展开了“阿尔法狗”之间的巅峰对决;

在狼人杀的夜晚,Claude、GPT和Grok轮流扮演村民和狼人,用自然语言编织谎言与真相;

在德州扑克的牌桌上,十位世界顶级模型选手在90万手对局中计算每一分期望值。

这一切,都源自于Google DeepMind团队和Kaggle平台的一个深刻洞察:现实世界的决策,从来都没有为之提供完美信息的棋盘。

为了衡量AI在现实世界中的真实能力,双方一同构建了由三种游戏组成的“认知阶梯”,同时也对应AI必须掌握的三种核心能力:战略规划、社会推理和风险决策。

新发布的狼人杀和德州扑克基准,正在以前所未有的技术深度和评测复杂度,将AI能力评测推进到社会性与不确定性的全新领域。

01 国际象棋:AI的理性骨架

事实上,这一思路并非突发奇想。早在去年8月,Google就与Kaggle合作试图验证AI模型在战略游戏中进行竞争的能力,而一切都起源于一项古老的游戏:国际象棋。

作为完美信息博弈(所有参与者决策时都能完全获得此前所有行动信息)的典范,国际象棋是测试AI战略推理、动态适应和长期规划能力最理想的沙盒之一。

以一款名为Stockfish的全球顶级开源国际象棋引擎为代表,传统方法大多选择暴力搜索的方式进行决策;但Gemini系列的大语言模型则另辟蹊径,依靠模式识别和“直觉”大幅缩小搜索空间。

显然,后者的下法与人类的思维更为接近。在大语言模型的内部思考过程中,也展现出“子力活跃性(piece mobility)”、“兵结构(pawn structure)”和“王的安全(king safety)”等对于人类概念的理解。

因此,这不仅是性能的提升和技术的演进,还是范式的转变:它证明了大语言模型可以在不依赖专用算法的情况下,仅依靠训练阶段积累的知识以及推理能力即可达到人类的“大师级”水平。

不过,万物都有两面性。国际象棋作为一项完美信息博弈的游戏,机制过于透明,其结果无法回答一个更加贴近现实的问题:当信息不再透明,当对手能够欺骗,AI又该如何应对?

Google和Kaggle设计出两款新的游戏测试基准,正是为了探究这个问题的答案。

02 狼人杀:AI的社交皮肤与安全沙盒

为了让AI在不完美信息博弈中也能做出最优决策,Google和Kaggle在Game Arena中引入了首个多智能体团队游戏:狼人杀。

由于现有的狼人杀规则各不相同,身份过于复杂,评测基准选定了经典的8人局游戏模式(2狼人+1医生+1预言家+4平民),并规定AI只能通过纯自然语言进行沟通与合作、欺骗与反欺骗。这也意味着未来企业级的AI助理必须具备沟通、谈判以及在模糊的信息中达成共识的能力。

尽管游戏规模已经压缩至8人4身份,但仍显复杂的游戏面临根本性的方法论挑战:以现阶段比较流行的Elo机制为代表的传统玩家评级系统都是针对对称对抗或同质化玩家而设计,但无法处理狼人杀中存在的角色互异性和团队依赖性两大难题。

角色互异性导致扮演狼人/医生/预言家/平民的AI的技能要求截然不同,团队依赖性则决定了单个玩家的胜败高度取决于对手和队友的表现。由此诞生了一个核心问题:在一个8人的团队游戏中,如何公平地给每个AI玩家打分?一局游戏的胜败是8个人共同作用的结果,如何判定谁的贡献大、谁在拖后腿?

好在,Google DeepMind团队提出了名为Polarix的评估框架。这个极具创造性的解决方案能够将狼人杀的评测问题重构为三人“元游戏(meta-game)”:

裁判(Judge)负责选定一个特定的身份;

经理A(Manager A)负责为这个身份挑选一个AI模型来扮演;

经理B(Manager B)负责为剩下的7个身份分配其他AI模型来扮演。

随后,参与游戏的8个模型就可以进行一局完整的狼人杀游戏,并产生明确的胜负结果。这个过程将针对每一个角色重复进行大量测试,直至系统达到纳什均衡(Nash equilibrium)。在这个均衡状态下,任何一位玩家单方面改变自己的策略(即更换模型)都无法提升胜率,由此就能揭示每个模型在每个身份上的真实价值。

例如,Gemini 3 Pro被选作预言家的频率远高于其他模型,而且被选中时平民阵营的胜率明显更高,那么Gemini 3 Pro就会在预言家这个角色上拿到最高的评分。

Polarix避开了直接量化个人贡献这一指标,转而通过类似市场竞争的机制来间接衡量价值。同时,Polarix既可以给出一个线性的排名,又可以捕捉到非传递性的能力循环。评测结果显示,Gemini 3 Pro和Flash分别擅长扮演狼人和预言家,其他模型都只能得到负胜率,GPT-5 mini则非常不适合扮演狼人。

狼人杀测试基准的意义不仅在于游戏层面上的表现,更在于AI安全研究方面的价值。这个不完美信息博弈的游戏创造了一个“红队测试(red-teaming)”环节。研究者可以同时直观测量模型作为村民时识别逻辑矛盾、检测欺骗行为的能力,以及作为狼人时生成可信谎言、虚构叙事、操纵群体共识的能力。

正如Google在博客上说的:我们不能假装AI不会欺骗,而是必须去评估和衡量它。

03 德州扑克:AI的风险偏好与理性极限

如果狼人杀是在考验AI的“社会性”人格扮演能力,那么Google和Kaggle设计的下一项测试:德州扑克,则是在试探AI纯粹的理性和风险偏好。

在这个扑克牌游戏中,由于只知道自己的两张底牌,AI必须面临极致的不完美信息和无限的风险敞口。AI的核心挑战是在无法获得对手手牌信息的情况下,通过解读对手的下注模式来推断范围,并以此得出最大化长期期望值的决策。

用扑克牌游戏来测试就不得不直面运气存在的事实。为了尽可能排除运气干扰,Game Arena设计了复现式对局。任意两个模型之间都会进行共计20000手的对局,在正常进行10000手对战后,交换双方底牌并完全复现此前的发牌顺序,再进行10000手对战,完美抵消发牌的随机性。

与卡内基梅隆大学研发的、专攻1v1无限注德州扑克不完美信息博弈的AI系统Libratus不同,参与此次评测的大语言模型被禁止使用任何外部工具,即无法使用范围计算器、赔率表或是需要预先计算的博弈论策略。模型只能依靠自身在训练过程中学习到的扑克牌理论知识和对手的实时行为进行动态推理。

模型在每次决策时都需要综合考虑底池赔率、隐含赔率、对手手牌组合、自身打牌风格等因素。而这些复杂的计算和判断必须于60秒内在模型内部完成并给出合法的动作。如果模型输出了非法动作,系统只会允许一次重试机会,此后默认采取最保守的行动。

表面上看是扑克牌游戏,实则是Google与Kaggle对大语言模型内生知识储备和实时概率推理能力的极限压力测试。

扑克牌测试基准的参赛选手共有十位,其中包括国产模型DeepSeek V3.2以展现评测的开放性和影响力。不过,测试仍在进行中,最终的排行榜将于明日揭晓。

04 认知生态:评测范式的跃迁

Google和Kaggle合作建立Game Arena的革命性意义并非选择了三个众所周知的经典游戏,而是系统性地构建了一个从原子化的能力到认知生态的评测框架。AI的评测基准必须紧紧追随AI的能力从实验室走向现实,完成根本性的范式转移。

对于传统的AI基准测试来说,无论是经典的MMLU知识问答,还是HumanEval代码生成,尽管都在推陈出新,但本质上都是在测量模型的静态原子化技能。虽然测试领域各有不同,但基本假设却几乎一致:世界是确定的、任务是孤立的、输入是规范的。

我们必须承认这些基准测试在大语言模型发展的早期阶段功不可没,但随着模型能力日新月异,“跑分没输过,实用没用过”的现象仿佛每天都在发生。Gemini和GPT的性能每天都在“被超越”,但领先地位却没有一丝动摇。

原因很简单:在面对真实世界的模糊性、对抗性和动态协作需求时,静态跑分没有说服力。

Game Arena制定的三重基准虽然看起来有些娱乐化,但却指向了一个更高维度的目标:测试模型在一个微观的社会经济生态系统中是否具备生存和适应能力。

国际象棋构成这个微观生态系统的逻辑内核,它能反映出智能体在规则清晰、信息透明的理想环境下进行长期规划、因果推理的能力。这是单智能体通往通用人工智能的底层能力基础。

狼人杀开始向微观生态系统中注入社会性,多智能体需要在充斥着信任与欺骗的复杂语言网络中自主行动。胜利与失败不仅取决于单智能体的智能程度和逻辑推理能力,还取决于是否能理解其他智能体的意图、建立有效沟通、在信息不对称时集体行动。这是多智能体系统和人机协作的核心挑战。

德州扑克则进一步将经济性引入微观生态系统,将决策置于一个以资源为媒介、以风险和回报为核心驱动力的环境中。智能体需要具备量化不确定性、管理风险敞口、通过行为建模进行策略博弈的能力。这是在金融、商业环境下进行决策的真实写照。

看似毫不沾边的三款游戏并非简单叠加,而是构成了一个相互耦合、彼此可验证的认知闭环。仅仅精通其中一项的AI,必定会因为缺乏其他能力而在另外两项游戏中屡屡落败。

Game Arena要求未来的AI模型不能再是独立的工具,而是能够在逻辑、社会和经济三大维度上协同运作、具备完整认知架构的智能体集合。

因此,模型只有在三重压力测试下展现出可靠且可解释的行为时,我们才有理由相信它已经具备了在现实世界中充当人类伙伴的资格。

原文标题 : Google“AI奥运会”:用游戏基准测试模型真实能力

由于现有的狼人杀规则各不相同,身份过于复杂,评测基准选定了经典的8人局游戏模式(2狼人+1医生+1预言家+4平民),并规定AI只能通过纯自然语言进行沟通与合作、欺骗与反欺骗。

AI新产品每天接连发布,测试基准和平台也是层出不穷。

不过,你是否想过,游戏也能用来测试AI?

2026年2月初,Google和Kaggle一起想出了一个新点子:在Kaggle的Game Arena上开展一次前所未有的“AI奥运会”。

比赛项目一共有三个:

在国际象棋的棋盘上,Gemini 3 Pro和Gemini 3 Flash展开了“阿尔法狗”之间的巅峰对决;

在狼人杀的夜晚,Claude、GPT和Grok轮流扮演村民和狼人,用自然语言编织谎言与真相;

在德州扑克的牌桌上,十位世界顶级模型选手在90万手对局中计算每一分期望值。

这一切,都源自于Google DeepMind团队和Kaggle平台的一个深刻洞察:现实世界的决策,从来都没有为之提供完美信息的棋盘。

为了衡量AI在现实世界中的真实能力,双方一同构建了由三种游戏组成的“认知阶梯”,同时也对应AI必须掌握的三种核心能力:战略规划、社会推理和风险决策。

新发布的狼人杀和德州扑克基准,正在以前所未有的技术深度和评测复杂度,将AI能力评测推进到社会性与不确定性的全新领域。

01 国际象棋:AI的理性骨架

事实上,这一思路并非突发奇想。早在去年8月,Google就与Kaggle合作试图验证AI模型在战略游戏中进行竞争的能力,而一切都起源于一项古老的游戏:国际象棋。

作为完美信息博弈(所有参与者决策时都能完全获得此前所有行动信息)的典范,国际象棋是测试AI战略推理、动态适应和长期规划能力最理想的沙盒之一。

以一款名为Stockfish的全球顶级开源国际象棋引擎为代表,传统方法大多选择暴力搜索的方式进行决策;但Gemini系列的大语言模型则另辟蹊径,依靠模式识别和“直觉”大幅缩小搜索空间。

显然,后者的下法与人类的思维更为接近。在大语言模型的内部思考过程中,也展现出“子力活跃性(piece mobility)”、“兵结构(pawn structure)”和“王的安全(king safety)”等对于人类概念的理解。

因此,这不仅是性能的提升和技术的演进,还是范式的转变:它证明了大语言模型可以在不依赖专用算法的情况下,仅依靠训练阶段积累的知识以及推理能力即可达到人类的“大师级”水平。

不过,万物都有两面性。国际象棋作为一项完美信息博弈的游戏,机制过于透明,其结果无法回答一个更加贴近现实的问题:当信息不再透明,当对手能够欺骗,AI又该如何应对?

Google和Kaggle设计出两款新的游戏测试基准,正是为了探究这个问题的答案。

02 狼人杀:AI的社交皮肤与安全沙盒

为了让AI在不完美信息博弈中也能做出最优决策,Google和Kaggle在Game Arena中引入了首个多智能体团队游戏:狼人杀。

由于现有的狼人杀规则各不相同,身份过于复杂,评测基准选定了经典的8人局游戏模式(2狼人+1医生+1预言家+4平民),并规定AI只能通过纯自然语言进行沟通与合作、欺骗与反欺骗。这也意味着未来企业级的AI助理必须具备沟通、谈判以及在模糊的信息中达成共识的能力。

尽管游戏规模已经压缩至8人4身份,但仍显复杂的游戏面临根本性的方法论挑战:以现阶段比较流行的Elo机制为代表的传统玩家评级系统都是针对对称对抗或同质化玩家而设计,但无法处理狼人杀中存在的角色互异性和团队依赖性两大难题。

角色互异性导致扮演狼人/医生/预言家/平民的AI的技能要求截然不同,团队依赖性则决定了单个玩家的胜败高度取决于对手和队友的表现。由此诞生了一个核心问题:在一个8人的团队游戏中,如何公平地给每个AI玩家打分?一局游戏的胜败是8个人共同作用的结果,如何判定谁的贡献大、谁在拖后腿?

好在,Google DeepMind团队提出了名为Polarix的评估框架。这个极具创造性的解决方案能够将狼人杀的评测问题重构为三人“元游戏(meta-game)”:

裁判(Judge)负责选定一个特定的身份;

经理A(Manager A)负责为这个身份挑选一个AI模型来扮演;

经理B(Manager B)负责为剩下的7个身份分配其他AI模型来扮演。

随后,参与游戏的8个模型就可以进行一局完整的狼人杀游戏,并产生明确的胜负结果。这个过程将针对每一个角色重复进行大量测试,直至系统达到纳什均衡(Nash equilibrium)。在这个均衡状态下,任何一位玩家单方面改变自己的策略(即更换模型)都无法提升胜率,由此就能揭示每个模型在每个身份上的真实价值。

例如,Gemini 3 Pro被选作预言家的频率远高于其他模型,而且被选中时平民阵营的胜率明显更高,那么Gemini 3 Pro就会在预言家这个角色上拿到最高的评分。

Polarix避开了直接量化个人贡献这一指标,转而通过类似市场竞争的机制来间接衡量价值。同时,Polarix既可以给出一个线性的排名,又可以捕捉到非传递性的能力循环。评测结果显示,Gemini 3 Pro和Flash分别擅长扮演狼人和预言家,其他模型都只能得到负胜率,GPT-5 mini则非常不适合扮演狼人。

狼人杀测试基准的意义不仅在于游戏层面上的表现,更在于AI安全研究方面的价值。这个不完美信息博弈的游戏创造了一个“红队测试(red-teaming)”环节。研究者可以同时直观测量模型作为村民时识别逻辑矛盾、检测欺骗行为的能力,以及作为狼人时生成可信谎言、虚构叙事、操纵群体共识的能力。

正如Google在博客上说的:我们不能假装AI不会欺骗,而是必须去评估和衡量它。

03 德州扑克:AI的风险偏好与理性极限

如果狼人杀是在考验AI的“社会性”人格扮演能力,那么Google和Kaggle设计的下一项测试:德州扑克,则是在试探AI纯粹的理性和风险偏好。

在这个扑克牌游戏中,由于只知道自己的两张底牌,AI必须面临极致的不完美信息和无限的风险敞口。AI的核心挑战是在无法获得对手手牌信息的情况下,通过解读对手的下注模式来推断范围,并以此得出最大化长期期望值的决策。

用扑克牌游戏来测试就不得不直面运气存在的事实。为了尽可能排除运气干扰,Game Arena设计了复现式对局。任意两个模型之间都会进行共计20000手的对局,在正常进行10000手对战后,交换双方底牌并完全复现此前的发牌顺序,再进行10000手对战,完美抵消发牌的随机性。

与卡内基梅隆大学研发的、专攻1v1无限注德州扑克不完美信息博弈的AI系统Libratus不同,参与此次评测的大语言模型被禁止使用任何外部工具,即无法使用范围计算器、赔率表或是需要预先计算的博弈论策略。模型只能依靠自身在训练过程中学习到的扑克牌理论知识和对手的实时行为进行动态推理。

模型在每次决策时都需要综合考虑底池赔率、隐含赔率、对手手牌组合、自身打牌风格等因素。而这些复杂的计算和判断必须于60秒内在模型内部完成并给出合法的动作。如果模型输出了非法动作,系统只会允许一次重试机会,此后默认采取最保守的行动。

表面上看是扑克牌游戏,实则是Google与Kaggle对大语言模型内生知识储备和实时概率推理能力的极限压力测试。

扑克牌测试基准的参赛选手共有十位,其中包括国产模型DeepSeek V3.2以展现评测的开放性和影响力。不过,测试仍在进行中,最终的排行榜将于明日揭晓。

04 认知生态:评测范式的跃迁

Google和Kaggle合作建立Game Arena的革命性意义并非选择了三个众所周知的经典游戏,而是系统性地构建了一个从原子化的能力到认知生态的评测框架。AI的评测基准必须紧紧追随AI的能力从实验室走向现实,完成根本性的范式转移。

对于传统的AI基准测试来说,无论是经典的MMLU知识问答,还是HumanEval代码生成,尽管都在推陈出新,但本质上都是在测量模型的静态原子化技能。虽然测试领域各有不同,但基本假设却几乎一致:世界是确定的、任务是孤立的、输入是规范的。

我们必须承认这些基准测试在大语言模型发展的早期阶段功不可没,但随着模型能力日新月异,“跑分没输过,实用没用过”的现象仿佛每天都在发生。Gemini和GPT的性能每天都在“被超越”,但领先地位却没有一丝动摇。

原因很简单:在面对真实世界的模糊性、对抗性和动态协作需求时,静态跑分没有说服力。

Game Arena制定的三重基准虽然看起来有些娱乐化,但却指向了一个更高维度的目标:测试模型在一个微观的社会经济生态系统中是否具备生存和适应能力。

国际象棋构成这个微观生态系统的逻辑内核,它能反映出智能体在规则清晰、信息透明的理想环境下进行长期规划、因果推理的能力。这是单智能体通往通用人工智能的底层能力基础。

狼人杀开始向微观生态系统中注入社会性,多智能体需要在充斥着信任与欺骗的复杂语言网络中自主行动。胜利与失败不仅取决于单智能体的智能程度和逻辑推理能力,还取决于是否能理解其他智能体的意图、建立有效沟通、在信息不对称时集体行动。这是多智能体系统和人机协作的核心挑战。

德州扑克则进一步将经济性引入微观生态系统,将决策置于一个以资源为媒介、以风险和回报为核心驱动力的环境中。智能体需要具备量化不确定性、管理风险敞口、通过行为建模进行策略博弈的能力。这是在金融、商业环境下进行决策的真实写照。

看似毫不沾边的三款游戏并非简单叠加,而是构成了一个相互耦合、彼此可验证的认知闭环。仅仅精通其中一项的AI,必定会因为缺乏其他能力而在另外两项游戏中屡屡落败。

Game Arena要求未来的AI模型不能再是独立的工具,而是能够在逻辑、社会和经济三大维度上协同运作、具备完整认知架构的智能体集合。

因此,模型只有在三重压力测试下展现出可靠且可解释的行为时,我们才有理由相信它已经具备了在现实世界中充当人类伙伴的资格。

原文标题 : Google“AI奥运会”:用游戏基准测试模型真实能力

展开
打开“财经头条”阅读更多精彩资讯
APP内打开