LLM有了新范式！OpenAI发布最强模型o1，推理能力超过人类博士

易简财经

1周前

o1毫无疑问为LLM带来了新范式，至少它现在能搞清楚「strawberry」里面有多少个R，OpenAI的研究人员表示，破解推理是朝着人类级智能迈出的重要一步。

来源 | 老胡看AI

昨天被爆出要提早两周发布「草莓」的OpenAI，该公司的两周约等于半天。

北京时间凌晨1点，OpenAI没有任何预兆地发布了新模型，简简单单，就叫「o1」（aka草莓）。

o1 是新一代 AI 模型，从命名上也可以看出，放弃此前的 ChatGPT 系列，o1 意在表示「将计数器重置为 1」——可以对复杂任务进行推理，尤其擅长做科学、编码、数学问题。

什么是 OpenAI o1？

o1 核心特点是能够在给出回复前用更多时间进行思考，这一机制是 o1 对无限推理模型的迈进，旨在模仿人类解决复杂问题的思考方式，它允许AI在给出最终答案之前，进行长时间、多层次的推理。

通过全新的训练模式，AI学会了「深思熟虑」，以提高对复杂任务的推理表现。o1不仅打大部分基准测试中胜过 GPT-4o，在物理、生物、化学问题的基准测试中，它直接超过了人类博士水平。

逻辑推理上，o1 选择用 AIME（美国数学邀请赛）——一个仅次于奥林匹克数学竞赛的项目，难度极大，解题思路非常灵活。

结果来看，GPT-4o 平均只解决了 12% (1.8/15) 的问题，而 o1 在每个问题只有一个样本的情况下平均为 74% (11.1/15)，在 64 个样本之间达成一致的情况下为 83% (12.5/15)，如果使用1000个样本，成绩甚至可以达到93% (13.9/15)。

93%的成绩，相当于可以进入美国前500名，这表明o1的数学能力已经达到了非常高的水平。

相对于GPT-4o，o1在处理复杂数学问题时取得了巨大进步，体现了其强大的逻辑推理能力。

‍在一个官方演示中，o1-preview 甚至解答了一个非常困难的推理问题：

「当公主的年龄是王子的两倍时，公主的年龄与王子一样大，而公主的年龄是他们现在年龄之和的一半时。王子和公主的年龄是多少？提供这个问题的所有解。」

另一个发现来自样本数量，随着提供的样本数量增加，o1的表现也随之提升，这说明模型能够有效地利用更多的信息来改善其推理能力。

编程能力方面，OpenAI 模拟了 Codeforces 主办的竞争性编程竞赛，采用的评估与竞赛规则非常接近，允许提交 10 份代码。

结果上，o1得分 1807，排名89位，超过 93% 的人类选手，而 GPT-4o 仅得到 808 分。

全新的LLM训练方式：Self-Play

o1模型训练方法的核心原理是一项名为「Self-Play」(自我对弈)的技术。

简单来说，就是让AI与自身的不同版本进行「对弈」或互动。这种方法最初在游戏AI领域取得成功，比如AlphaGo和AlphaZero。

OpenAI将Self-Play技术应用到了语言模型训练中，通过与自身的不同版本进行对话和推理，不断提升自己的能力。

整个训练过程可以简单抽象为为：

模型会生成多个推理步骤或思考路径。
这些路径被评估和比较，选出最优的结果。
模型从这个过程中学习，改进自己的推理能力。

因此，相比于传统语言模型一次性生成答案的「快思考」，o1虽然回复时间较长，却因为进行了多步骤、迭代式的推理过程，能显著提高了在数学和科学领域的推理能力。

因此，o1的局限性也是显而易见的，生成响应较慢，暂时没有网页浏览和文件处理等GPT 4o具备的功能。

同时，尽管有所改进，o1仍然存在生成不正确或虚构信息（即幻觉）的问题。

正如曾在 OpenAI，现在英伟达工作的AI研究员Jim Fan也指出，将o1投入生产要比各种「跑分」更难。

因为面对现实中的推理问题，如何确定停止搜索的时机、如何定义奖励函数、如何衡量成功标准、何时调用外部工具（如代码解释器）、如何平衡计算成本？这些都是需要解决的问题。

不过他也表示，计算资源正从训练转向推理服务，以及OpenAI在大模型领域可能仍然保持领先于同行的位置，OpenAI可能早已掌握推理扩展规律。而学术界近期才开始深入研究，上个月才有两篇相关论文在Arxiv上发表。

o1到底能做什么？

为了让大家更直观地看到o1的强大能力，OpenAI更是一次性发布十几条演示视频。

内容包括让o1编写电子游戏代码、解释复杂的量子物理概念、回答人工智能难题、分析经济问题、解决高难度的逻辑谜题、分析遗传学问题、修复错误句子等……

从视频能看出，o1不仅拥有强大的问题分解和解决能力，知识范围也相当广泛，能编码、能推理、能理解语言。

虽然这些视频都是精心制作才发布的，我们也会担心o1会不会像此前4o语言功能的「跳票」行为。

但o1仍然标志着AI技术进入了一个新的里程碑，这种全新的训练模式很好地弥补了之前大模型缺失的推理能力，为未来AI在各个领域的应用开辟了新的可能性。

还有一个o1-mini

除了预览版，o1 还发布了一个更快、更便宜的 o1-mini 模型。

从今天开始，ChatGPT Plus 和 Team 用户将能够访问 ChatGPT 中的 o1 模型。o1-preview 的每周速率限制为 30 条消息，o1-mini 的每周速率限制为 50 条。

符合 API 使用第 5 层资格的开发人员今天可以开始使用 API 中的两种模型进行原型设计，速率限制为 20 RPM。

接下来，OpenAI 除了继续更新模型，推出正式版之外，o1还将添加浏览、文件和图像上传等功能。

以及，除了新的 OpenAI o1 系列之外，还计划继续开发和发布 GPT 系列中的模型。

小结

在 AI 界，各种关于 OpenAI 的新闻从未停歇，对于这家正在寻求新一轮融资，估值达到 1500 亿美元的公司而言，能否继续发展壮大取决于它能否持续在 LLM 技术上保持「遥遥领先」。

o1 毫无疑问为 LLM 带来了新范式，至少它现在能搞清楚「strawberry」里面有多少个 R，OpenAI 的研究人员表示，破解推理是朝着人类级智能迈出的重要一步。这也意味着，我们离真正的 AI Agent 又近了一步。

•END•

联系入群 | 加微信：xjjyj666

欢迎点击易简财经视频号，看最新视频~

↓↓↓