OpenAI深夜发布GPT-4.1系列模型，支持百万Token上下文编程

财经头条

提升一亿中产阶级阅读效率

打开

腾讯科技

21小时前

4月15日凌晨，OpenAI正式在API中推出全新的GPT-4.1系列模型。此次发布包括三款新模型，分别是GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三个新成员。其中，OpenAI声称GPT-4.1 nano是其迄今“最快、最便宜”的模型。

这些模型在各项指标上全面优于GPT-4o和GPT-4o mini，特别是在编程、指令遵循以及上下文理解方面表现突出。

它们还支持更长的上下文窗口，最大可达100万个Token。它们的知识更新日期为2024年6月。

以下为三款新模型的主要特点和应用场景：

GPT-4.1：OpenAI的旗舰级模型，擅长编码、指令遵循和长上下文理解，适用于处理复杂任务。

GPT-4.1 mini：OpenAI的高效小型模型，在多个基准测试中表现超越 GPT-4o，大幅减少延迟并降低 83% 成本，适合对性能要求高的场景。

GPT-4.1 nano：OpenAI 首个超小型模型，速度最快、成本最低，支持 100 万 Token 的上下文窗口，适用于低延迟任务，如分类和自动补全。

不过，需要注意的是：GPT-4.1 仅通过 API 提供。而在 ChatGPT 中，OpenAI已将许多 GPT-4.1 在指令遵循、编程和智能方面的改进逐步融入了最新版本的 GPT-4o，未来还会继续整合更多。

GPT-4.1 系列模型

行业标准评估表现

编程能力：在SWE-bench Verified编程基准上得分54.6%，相较GPT-4o提升了21.4个百分点，相较GPT-4.5提升了26.6个百分点。

指令遵循能力：在Scale的MultiChallenge基准上得分38.3%，比GPT-4o提升10.5个百分点。

长上下文理解能力：在Video-MME的无字幕长视频理解类别中得分72.0%，比GPT-4o提升6.7个百分点。

OpenAI表示，尽管基准测试数据提供了有价值的参考，但该公司在训练这些模型时，对它们进行了有针对性的优化，以支持开发者社区最关心的实际任务。

因此，GPT-4.1系列模型以更低的成本提供更优越的性能，OpenAI在降低延迟和提高吞吐量、准确率方面也都进行了优化。

按延迟划分

GPT-4.1系列智能表现

GPT-4.1 mini 在小模型性能方面取得了重大突破，在许多基准测试中超过GPT-4o。在智能评估中，它的表现不输GPT-4o，同时将延迟降低近一半，成本降低 83%。

OpenAI宣称，GPT-4.1 nano 是其迄今“最快、最便宜”的模型，专为低延迟场景设计，非常适合用于分类、自动补全等轻量高频任务。它具备百万 Token 的上下文窗口，并在多项指标上取得好成绩：

MMLU：80.1%

GPQA：50.3%

Aider polyglot（多语言编程）：9.8%（高于 GPT-4o mini）

这些在指令遵循与长上下文理解方面的进步，使得 GPT-4.1 系列模型在驱动“AI 智能体（即能代表用户独立完成任务的系统）”方面有了很大提升。当与Responses API等基础组件结合时，开发者现在可以构建更可靠实用的智能体系统，可以帮助自动化软件工程任务、从大文档中提炼摘要以及更高效地处理客户请求等。

与此同时，GPT-4.5 Preview 也将退役，因为 GPT-4.1 在多数关键能力上以更低成本和延迟实现了相近甚至更优的性能。

OpenAI从编程、指令、上下文支持等多个维度方面，展示GPT-4.1系列模型的能力。

01 编程能力优于GPT-4o

GPT‑4.1 在多种编程任务中的表现明显优于 GPT‑4o，包括能够以智能体方式独立完成编程任务、前端开发、更少的无关修改、更可靠地遵循 diff 格式、保持工具使用的一致性等方面。

在 SWE-bench Verified（衡量真实世界软件工程技能的基准测试）中，GPT‑4.1 完成了 54.6% 的任务，而 GPT‑4o（2024-11-20 版本）仅完成了 33.2%。这反映出模型在浏览代码库、完成任务，以及生成既能运行又能通过测试的代码方面能力的提升。

图注：在 SWE-bench Verified 测试中，模型会被提供一个代码库和一个问题描述，并需要生成一个补丁来解决该问题

对于希望通过 API 编辑大型文件的开发者来说，GPT‑4.1 在多种格式的代码差异（code diff）处理上表现更加可靠。在 Aider 的 polyglot diff 基准测试中，GPT‑4.1 的得分是 GPT‑4o 的两倍以上，并且比 GPT‑4.5 高出 8 个百分点。

OpenAI对 GPT‑4.1 进行了特别训练，使其能更可靠地遵循 diff 格式，从而让开发者仅输出修改的代码行，而非重写整个文件，进而节省成本与延迟。

对于更偏好重写整个文件的开发者，OpenAI已将 GPT‑4.1 的输出 Token 上限提升至 32,768（相比之下，GPT‑4o 为 16,384）。

图注：在 Aider 的 polyglot 基准测试中，模型需通过编辑源文件来完成来自 Exercism 的编程练习，并允许重试一次。其中，“whole” 格式要求模型重写整个文件，这种方式可能较慢且成本较高。而 “diff” 格式则要求模型生成一系列搜索/替换块，仅修改文件中需要变动的部分。

GPT‑4.1 在前端开发方面也相较 GPT‑4o 有了显著提升，能够构建出功能更完善、界面更美观的网页应用。在一对一的对比测试中，有偿人工评审在 80% 的情况下更倾向于 GPT‑4.1 所生成的网站，优于 GPT‑4o。

02.指令遵循

OpenAI开发了一个内部评估系统，用于跟踪GPT-4.1系列模型在多个维度和几个关键类别中的表现，包括：

格式遵循：提供指定模型响应格式的指令，例如 XML、YAML、Markdown 等。

负面指令：指定模型应避免的行为。（例如：“不要要求用户联系支持”）

顺序指令：提供一组需要按特定顺序执行的指令。（例如：“首先询问用户的名字，然后询问他们的电子邮件地址”）

内容要求：输出包含特定信息的内容。（例如：“编写营养计划时，始终包括蛋白质的含量”）

排序：按照特定方式对输出进行排序。（例如：“按人口数量排序响应”）

预防幻觉：指示模型在无法提供所请求信息或请求不属于某一特定类别时说“我不知道”或类似的回答。（例如：“如果你不知道答案，提供支持联系邮箱”）

这些类别是OpenAI根据开发者的反馈而设定的，他们认为这些是模型在指令遵循方面最重要的问题。在每个类别中，OpenAI将提示分为简单、中等和困难的级别。特别是在困难级别的提示上，GPT‑4.1 相较于 GPT‑4o 有较大提升。

图注：OpenAI的内部指令遵循评估基于真实开发者的使用案例和反馈，涵盖了各种复杂度的任务，并结合了关于格式、冗长程度、长度等方面的指令

多轮指令遵循对许多开发者来说至关重要，因为模型需要能够在对话中保持连贯性，并记住用户之前告诉它的信息。OpenAI已训练 GPT‑4.1 更好地从对话的历史消息中提取信息，从而实现更自然的对话。Scale 的 MultiChallenge 基准测试是衡量这一能力的有用指标，GPT‑4.1 在该测试中比 GPT‑4o 提高了 10.5% 的绝对分数。

图注：在 MultiChallenge中，模型需要在多轮对话中挑战，正确使用来自前一条消息的四种信息类型

GPT‑4.1 在 IFEval 上的得分为 87.4%，而 GPT‑4o 的得分为 81.0%。IFEval 使用带有可验证指令的提示，例如，指定内容长度或避免使用某些术语或格式。

图注：在 IFEval测试中，模型必须生成符合各种指令要求的回答

03 百万Token长上下文处理能力

GPT‑4.1、GPT‑4.1 mini 和 GPT‑4.1 nano 都支持处理最长达 100 万 Token 的上下文内容，相比之前 GPT‑4o 的 128,000 Token 实现了大幅跃升。100 万 Token 的容量，相当于超过 8 份完整的 React 代码库，因此长上下文功能非常适合用于处理大型代码库或超长文档。

OpenAI训练 GPT‑4.1 能够在完整的 100 万Token上下文长度中关注相关信息。该模型在识别有用文本、忽略干扰信息方面也比 GPT‑4o 更加可靠，无论是长上下文还是短上下文。长上下文理解能力对于法律、编程、客户支持等多个领域的应用来说，都是一项关键能力。

下图展示了 GPT‑4.1 在整个上下文窗口中检索“隐藏信息”（即“needle”）的能力，该信息被放置在不同位置。GPT‑4.1 始终能够准确地检索出 needle，无论其在输入中的位置或上下文长度如何，甚至是在最长 100 万 Token 的输入中。这表明它能够根据任务需要，精准提取出相关细节，而不受其在上下文中位置的影响。

当然，现实任务往往需要模型同时检索并理解多个信息。为此，OpenAI 推出新的评估基准 OpenAI-MRCR，用于测试模型在长上下文中区分多个相似请求的能力。任务挑战在于：上下文中插入多个几乎相同的请求，容易导致模型产生困惑。

GPT‑4.1 在长达 100 万 Token 的输入中表现明显优于 GPT‑4o。尽管任务困难，GPT‑4.1 展示了强大的多轮推理与上下文检索能力。OpenAI 已开源数据集，鼓励更多相关研究。

图注：在 OpenAI-MRCR中，模型必须回答涉及从干扰信息中辨别出上下文中 2、4 或 8 个用户请求

OpenAI还发布了 Graphwalks 数据集，用于评估模型在多步长上下文推理方面的能力。与 OpenAI-MRCR 不同，Graphwalks 无法通过顺序地通读上下文来解决，即便是人类也难以用“一遍读完”来完成任务。它专门设计为需要模型在上下文的多个位置之间进行推理。

Graphwalks 会用一个由十六进制哈希构成的有向图填满整个上下文，然后要求模型从图中一个随机节点开始，执行广度优先搜索（BFS），并返回某一深度下的所有节点。在这个评估中，GPT‑4.1 的准确率为 61.7%，与 o1 模型持平，优于 GPT‑4o，展示了其在复杂逻辑路径理解与多步推理中的优势。

图注：在 Graphwalks中，模型被要求从一个大型图中的随机节点开始执行广度优先搜索（BFS）

04 视觉能力

GPT‑4.1 系列模型在图像理解方面表现出色，尤其是 GPT‑4.1 mini ，在多个图像基准测试中经常优于 GPT‑4o。

图注：在 MMMU中，模型需要回答包含图表、图示、地图等内容的问题

图注：在 MathVista中，模型解决视觉数学任务

图注：在 CharXiv-Reasoning中，模型回答关于科学论文中图表的问题

图注：在 Video-MME中，模型根据没有字幕的30到60分钟长的视频回答多项选择题

定价

GPT‑4.1、GPT‑4.1 mini 和 GPT‑4.1 nano 现在已向所有开发者开放。通过对推理系统的效率改进，OpenAI 能够提供更低的 GPT‑4.1 价格。

与 GPT‑4o 相比，GPT‑4.1 在普通查询上便宜了 26%，而 GPT‑4.1 nano 是OpenAI 迄今为止最便宜且最快的模型。

对于反复使用相同上下文的查询，OpenAI 将此新模型的提示缓存折扣提高到 75%（之前为 50%）。最后，长上下文请求的费用仅按标准每个Token的费用计算，不会收取额外费用。

OpenAI表示，GPT‑4.1 是人工智能实际应用的重大进步。通过紧密关注现实开发者需求，从编码到指令遵循，再到长上下文理解，这些模型为构建智能系统和复杂的智能体应用开辟了新的可能性。