在开源上的共识。
作者|连冉
编辑|郑玄
01
在一系列权威基准测试中,千问 QwQ-32B 模型表现出色,几乎完全超越了 OpenAI-o1-mini,比肩最强开源推理模型 DeepSeek-R1:在测试数学能力的 AIME24 评测集上,以及评估代码能力的 LiveCodeBench 中,千问 QwQ-32B 表现与 DeepSeek-R1 相当,远胜于 o1-mini 及相同尺寸的 R1 蒸馏模型;在由 Meta 首席科学家杨立昆领衔的「最难 LLMs 评测榜」LiveBench、谷歌等提出的指令遵循能力 IFEval 评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的 BFCL 测试中,千问 QwQ-32B 的得分均超越了 DeepSeek-R1。
02
热点视频
更多阅读
在开源上的共识。
作者|连冉
编辑|郑玄
01
在一系列权威基准测试中,千问 QwQ-32B 模型表现出色,几乎完全超越了 OpenAI-o1-mini,比肩最强开源推理模型 DeepSeek-R1:在测试数学能力的 AIME24 评测集上,以及评估代码能力的 LiveCodeBench 中,千问 QwQ-32B 表现与 DeepSeek-R1 相当,远胜于 o1-mini 及相同尺寸的 R1 蒸馏模型;在由 Meta 首席科学家杨立昆领衔的「最难 LLMs 评测榜」LiveBench、谷歌等提出的指令遵循能力 IFEval 评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的 BFCL 测试中,千问 QwQ-32B 的得分均超越了 DeepSeek-R1。
02
热点视频
更多阅读