LLM有了新范式!OpenAI发布最强模型o1,推理能力超过人类博士

易简财经

1周前

o1毫无疑问为LLM带来了新范式,至少它现在能搞清楚「strawberry」里面有多少个R,OpenAI的研究人员表示,破解推理是朝着人类级智能迈出的重要一步。

来源 | 老胡看AI

昨天被爆出要提早两周发布「草莓」的OpenAI,该公司的两周约等于半天。

北京时间凌晨1点,OpenAI没有任何预兆地发布了新模型,简简单单,就叫「o1」(aka草莓)。

o1 是新一代 AI 模型,从命名上也可以看出,放弃此前的 ChatGPT 系列,o1 意在表示「将计数器重置为 1」——可以对复杂任务进行推理,尤其擅长做科学、编码、数学问题。

什么是 OpenAI o1?

o1 核心特点是能够在给出回复前用更多时间进行思考,这一机制是 o1 对无限推理模型的迈进,旨在模仿人类解决复杂问题的思考方式,它允许AI在给出最终答案之前,进行长时间、多层次的推理。

通过全新的训练模式,AI学会了「深思熟虑」,以提高对复杂任务的推理表现。o1不仅打大部分基准测试中胜过 GPT-4o,在物理、生物、化学问题的基准测试中,它直接超过了人类博士水平。

逻辑推理上,o1 选择用 AIME(美国数学邀请赛)——一个仅次于奥林匹克数学竞赛的项目,难度极大,解题思路非常灵活。

结果来看,GPT-4o 平均只解决了 12% (1.8/15) 的问题,而 o1 在每个问题只有一个样本的情况下平均为 74% (11.1/15),在 64 个样本之间达成一致的情况下为 83% (12.5/15),如果使用1000个样本,成绩甚至可以达到93% (13.9/15)。

93%的成绩,相当于可以进入美国前500名,这表明o1的数学能力已经达到了非常高的水平。

相对于GPT-4o,o1在处理复杂数学问题时取得了巨大进步,体现了其强大的逻辑推理能力。

‍在一个官方演示中,o1-preview 甚至解答了一个非常困难的推理问题:

「当公主的年龄是王子的两倍时,公主的年龄与王子一样大,而公主的年龄是他们现在年龄之和的一半时。王子和公主的年龄是多少?提供这个问题的所有解。」

另一个发现来自样本数量,随着提供的样本数量增加,o1的表现也随之提升,这说明模型能够有效地利用更多的信息来改善其推理能力。

编程能力方面,OpenAI 模拟了 Codeforces 主办的竞争性编程竞赛,采用的评估与竞赛规则非常接近,允许提交 10 份代码。

结果上,o1得分 1807,排名89位,超过 93% 的人类选手,而 GPT-4o 仅得到 808 分。

全新的LLM训练方式:Self-Play

o1模型训练方法的核心原理是一项名为「Self-Play」(自我对弈)的技术。

简单来说,就是让AI与自身的不同版本进行「对弈」或互动。这种方法最初在游戏AI领域取得成功,比如AlphaGo和AlphaZero。

OpenAI将Self-Play技术应用到了语言模型训练中,通过与自身的不同版本进行对话和推理,不断提升自己的能力。

整个训练过程可以简单抽象为为:

  1. 模型会生成多个推理步骤或思考路径。

  2. 这些路径被评估和比较,选出最优的结果。

  3. 模型从这个过程中学习,改进自己的推理能力。

因此,相比于传统语言模型一次性生成答案的「快思考」,o1虽然回复时间较长,却因为进行了多步骤、迭代式的推理过程,能显著提高了在数学和科学领域的推理能力。

因此,o1的局限性也是显而易见的,生成响应较慢,暂时没有网页浏览和文件处理等GPT 4o具备的功能。

同时,尽管有所改进,o1仍然存在生成不正确或虚构信息(即幻觉)的问题。

正如曾在 OpenAI,现在英伟达工作的AI研究员Jim Fan也指出,将o1投入生产要比各种「跑分」更难。

因为面对现实中的推理问题,如何确定停止搜索的时机、如何定义奖励函数、如何衡量成功标准、何时调用外部工具(如代码解释器)、如何平衡计算成本?这些都是需要解决的问题。

不过他也表示,计算资源正从训练转向推理服务,以及OpenAI在大模型领域可能仍然保持领先于同行的位置,OpenAI可能早已掌握推理扩展规律。而学术界近期才开始深入研究,上个月才有两篇相关论文在Arxiv上发表。

o1到底能做什么? 

为了让大家更直观地看到o1的强大能力,OpenAI更是一次性发布十几条演示视频。

内容包括让o1编写电子游戏代码、解释复杂的量子物理概念、回答人工智能难题、分析经济问题、解决高难度的逻辑谜题、分析遗传学问题、修复错误句子等……

从视频能看出,o1不仅拥有强大的问题分解和解决能力,知识范围也相当广泛,能编码、能推理、能理解语言。

虽然这些视频都是精心制作才发布的,我们也会担心o1会不会像此前4o语言功能的「跳票」行为。

但o1仍然标志着AI技术进入了一个新的里程碑,这种全新的训练模式很好地弥补了之前大模型缺失的推理能力,为未来AI在各个领域的应用开辟了新的可能性。

还有一个o1-mini

除了预览版,o1 还发布了一个更快、更便宜的 o1-mini 模型。

从今天开始,ChatGPT Plus 和 Team 用户将能够访问 ChatGPT 中的 o1 模型。o1-preview 的每周速率限制为 30 条消息,o1-mini 的每周速率限制为 50 条。

符合 API 使用第 5 层资格的开发人员今天可以开始使用 API 中的两种模型进行原型设计,速率限制为 20 RPM。

接下来,OpenAI 除了继续更新模型,推出正式版之外,o1还将添加浏览、文件和图像上传等功能。

以及,除了新的 OpenAI o1 系列之外,还计划继续开发和发布 GPT 系列中的模型。

小结

在 AI 界,各种关于 OpenAI 的新闻从未停歇,对于这家正在寻求新一轮融资,估值达到 1500 亿美元的公司而言,能否继续发展壮大取决于它能否持续在 LLM 技术上保持「遥遥领先」。

o1 毫无疑问为 LLM 带来了新范式,至少它现在能搞清楚「strawberry」里面有多少个 R,OpenAI 的研究人员表示,破解推理是朝着人类级智能迈出的重要一步。这也意味着,我们离真正的 AI Agent 又近了一步。

•END•

联系入群 | 加微信:xjjyj666



欢迎点击易简财经视频号,看最新视频~

o1毫无疑问为LLM带来了新范式,至少它现在能搞清楚「strawberry」里面有多少个R,OpenAI的研究人员表示,破解推理是朝着人类级智能迈出的重要一步。

来源 | 老胡看AI

昨天被爆出要提早两周发布「草莓」的OpenAI,该公司的两周约等于半天。

北京时间凌晨1点,OpenAI没有任何预兆地发布了新模型,简简单单,就叫「o1」(aka草莓)。

o1 是新一代 AI 模型,从命名上也可以看出,放弃此前的 ChatGPT 系列,o1 意在表示「将计数器重置为 1」——可以对复杂任务进行推理,尤其擅长做科学、编码、数学问题。

什么是 OpenAI o1?

o1 核心特点是能够在给出回复前用更多时间进行思考,这一机制是 o1 对无限推理模型的迈进,旨在模仿人类解决复杂问题的思考方式,它允许AI在给出最终答案之前,进行长时间、多层次的推理。

通过全新的训练模式,AI学会了「深思熟虑」,以提高对复杂任务的推理表现。o1不仅打大部分基准测试中胜过 GPT-4o,在物理、生物、化学问题的基准测试中,它直接超过了人类博士水平。

逻辑推理上,o1 选择用 AIME(美国数学邀请赛)——一个仅次于奥林匹克数学竞赛的项目,难度极大,解题思路非常灵活。

结果来看,GPT-4o 平均只解决了 12% (1.8/15) 的问题,而 o1 在每个问题只有一个样本的情况下平均为 74% (11.1/15),在 64 个样本之间达成一致的情况下为 83% (12.5/15),如果使用1000个样本,成绩甚至可以达到93% (13.9/15)。

93%的成绩,相当于可以进入美国前500名,这表明o1的数学能力已经达到了非常高的水平。

相对于GPT-4o,o1在处理复杂数学问题时取得了巨大进步,体现了其强大的逻辑推理能力。

‍在一个官方演示中,o1-preview 甚至解答了一个非常困难的推理问题:

「当公主的年龄是王子的两倍时,公主的年龄与王子一样大,而公主的年龄是他们现在年龄之和的一半时。王子和公主的年龄是多少?提供这个问题的所有解。」

另一个发现来自样本数量,随着提供的样本数量增加,o1的表现也随之提升,这说明模型能够有效地利用更多的信息来改善其推理能力。

编程能力方面,OpenAI 模拟了 Codeforces 主办的竞争性编程竞赛,采用的评估与竞赛规则非常接近,允许提交 10 份代码。

结果上,o1得分 1807,排名89位,超过 93% 的人类选手,而 GPT-4o 仅得到 808 分。

全新的LLM训练方式:Self-Play

o1模型训练方法的核心原理是一项名为「Self-Play」(自我对弈)的技术。

简单来说,就是让AI与自身的不同版本进行「对弈」或互动。这种方法最初在游戏AI领域取得成功,比如AlphaGo和AlphaZero。

OpenAI将Self-Play技术应用到了语言模型训练中,通过与自身的不同版本进行对话和推理,不断提升自己的能力。

整个训练过程可以简单抽象为为:

  1. 模型会生成多个推理步骤或思考路径。

  2. 这些路径被评估和比较,选出最优的结果。

  3. 模型从这个过程中学习,改进自己的推理能力。

因此,相比于传统语言模型一次性生成答案的「快思考」,o1虽然回复时间较长,却因为进行了多步骤、迭代式的推理过程,能显著提高了在数学和科学领域的推理能力。

因此,o1的局限性也是显而易见的,生成响应较慢,暂时没有网页浏览和文件处理等GPT 4o具备的功能。

同时,尽管有所改进,o1仍然存在生成不正确或虚构信息(即幻觉)的问题。

正如曾在 OpenAI,现在英伟达工作的AI研究员Jim Fan也指出,将o1投入生产要比各种「跑分」更难。

因为面对现实中的推理问题,如何确定停止搜索的时机、如何定义奖励函数、如何衡量成功标准、何时调用外部工具(如代码解释器)、如何平衡计算成本?这些都是需要解决的问题。

不过他也表示,计算资源正从训练转向推理服务,以及OpenAI在大模型领域可能仍然保持领先于同行的位置,OpenAI可能早已掌握推理扩展规律。而学术界近期才开始深入研究,上个月才有两篇相关论文在Arxiv上发表。

o1到底能做什么? 

为了让大家更直观地看到o1的强大能力,OpenAI更是一次性发布十几条演示视频。

内容包括让o1编写电子游戏代码、解释复杂的量子物理概念、回答人工智能难题、分析经济问题、解决高难度的逻辑谜题、分析遗传学问题、修复错误句子等……

从视频能看出,o1不仅拥有强大的问题分解和解决能力,知识范围也相当广泛,能编码、能推理、能理解语言。

虽然这些视频都是精心制作才发布的,我们也会担心o1会不会像此前4o语言功能的「跳票」行为。

但o1仍然标志着AI技术进入了一个新的里程碑,这种全新的训练模式很好地弥补了之前大模型缺失的推理能力,为未来AI在各个领域的应用开辟了新的可能性。

还有一个o1-mini

除了预览版,o1 还发布了一个更快、更便宜的 o1-mini 模型。

从今天开始,ChatGPT Plus 和 Team 用户将能够访问 ChatGPT 中的 o1 模型。o1-preview 的每周速率限制为 30 条消息,o1-mini 的每周速率限制为 50 条。

符合 API 使用第 5 层资格的开发人员今天可以开始使用 API 中的两种模型进行原型设计,速率限制为 20 RPM。

接下来,OpenAI 除了继续更新模型,推出正式版之外,o1还将添加浏览、文件和图像上传等功能。

以及,除了新的 OpenAI o1 系列之外,还计划继续开发和发布 GPT 系列中的模型。

小结

在 AI 界,各种关于 OpenAI 的新闻从未停歇,对于这家正在寻求新一轮融资,估值达到 1500 亿美元的公司而言,能否继续发展壮大取决于它能否持续在 LLM 技术上保持「遥遥领先」。

o1 毫无疑问为 LLM 带来了新范式,至少它现在能搞清楚「strawberry」里面有多少个 R,OpenAI 的研究人员表示,破解推理是朝着人类级智能迈出的重要一步。这也意味着,我们离真正的 AI Agent 又近了一步。

•END•

联系入群 | 加微信:xjjyj666



欢迎点击易简财经视频号,看最新视频~

展开
打开“财经头条”阅读更多精彩资讯
APP内打开