4月15日凌晨,OpenAI正式在API中推出全新的GPT-4.1系列模型。此次发布包括三款新模型,分别是GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三个新成员。其中,OpenAI声称GPT-4.1 nano是其迄今“最快、最便宜”的模型。
这些模型在各项指标上全面优于GPT-4o和GPT-4o mini,特别是在编程、指令遵循以及上下文理解方面表现突出。
它们还支持更长的上下文窗口,最大可达100万个Token。它们的知识更新日期为2024年6月。
以下为三款新模型的主要特点和应用场景:
GPT-4.1:OpenAI的旗舰级模型,擅长编码、指令遵循和长上下文理解,适用于处理复杂任务。
GPT-4.1 mini:OpenAI的高效小型模型,在多个基准测试中表现超越 GPT-4o,大幅减少延迟并降低 83% 成本,适合对性能要求高的场景。
GPT-4.1 nano:OpenAI 首个超小型模型,速度最快、成本最低,支持 100 万 Token 的上下文窗口,适用于低延迟任务,如分类和自动补全。
不过,需要注意的是:GPT-4.1 仅通过 API 提供。而在 ChatGPT 中,OpenAI已将许多 GPT-4.1 在指令遵循、编程和智能方面的改进逐步融入了最新版本的 GPT-4o,未来还会继续整合更多。
GPT-4.1 系列模型
行业标准评估表现
编程能力:在SWE-bench Verified编程基准上得分54.6%,相较GPT-4o提升了21.4个百分点,相较GPT-4.5提升了26.6个百分点。
指令遵循能力:在Scale的MultiChallenge基准上得分38.3%,比GPT-4o提升10.5个百分点。
长上下文理解能力:在Video-MME的无字幕长视频理解类别中得分72.0%,比GPT-4o提升6.7个百分点。
OpenAI表示,尽管基准测试数据提供了有价值的参考,但该公司在训练这些模型时,对它们进行了有针对性的优化,以支持开发者社区最关心的实际任务。
因此,GPT-4.1系列模型以更低的成本提供更优越的性能,OpenAI在降低延迟和提高吞吐量、准确率方面也都进行了优化。
按延迟划分
GPT-4.1系列智能表现
GPT-4.1 mini 在小模型性能方面取得了重大突破,在许多基准测试中超过GPT-4o。在智能评估中,它的表现不输GPT-4o,同时将延迟降低近一半,成本降低 83%。
OpenAI宣称,GPT-4.1 nano 是其迄今“最快、最便宜”的模型,专为低延迟场景设计,非常适合用于分类、自动补全等轻量高频任务。它具备百万 Token 的上下文窗口,并在多项指标上取得好成绩:
MMLU:80.1%
GPQA:50.3%
Aider polyglot(多语言编程):9.8%(高于 GPT-4o mini)
这些在指令遵循与长上下文理解方面的进步,使得 GPT-4.1 系列模型在驱动“AI 智能体(即能代表用户独立完成任务的系统)”方面有了很大提升。当与Responses API等基础组件结合时,开发者现在可以构建更可靠实用的智能体系统,可以帮助自动化软件工程任务、从大文档中提炼摘要以及更高效地处理客户请求等。
与此同时,GPT-4.5 Preview 也将退役,因为 GPT-4.1 在多数关键能力上以更低成本和延迟实现了相近甚至更优的性能。
OpenAI从编程、指令、上下文支持等多个维度方面,展示GPT-4.1系列模型的能力。
01 编程能力优于GPT-4o
GPT‑4.1 在多种编程任务中的表现明显优于 GPT‑4o,包括能够以智能体方式独立完成编程任务、前端开发、更少的无关修改、更可靠地遵循 diff 格式、保持工具使用的一致性等方面。
在 SWE-bench Verified(衡量真实世界软件工程技能的基准测试)中,GPT‑4.1 完成了 54.6% 的任务,而 GPT‑4o(2024-11-20 版本)仅完成了 33.2%。这反映出模型在浏览代码库、完成任务,以及生成既能运行又能通过测试的代码方面能力的提升。
图注:在 SWE-bench Verified 测试中,模型会被提供一个代码库和一个问题描述,并需要生成一个补丁来解决该问题
对于希望通过 API 编辑大型文件的开发者来说,GPT‑4.1 在多种格式的代码差异(code diff)处理上表现更加可靠。在 Aider 的 polyglot diff 基准测试中,GPT‑4.1 的得分是 GPT‑4o 的两倍以上,并且比 GPT‑4.5 高出 8 个百分点。
OpenAI对 GPT‑4.1 进行了特别训练,使其能更可靠地遵循 diff 格式,从而让开发者仅输出修改的代码行,而非重写整个文件,进而节省成本与延迟。
对于更偏好重写整个文件的开发者,OpenAI已将 GPT‑4.1 的输出 Token 上限提升至 32,768(相比之下,GPT‑4o 为 16,384)。
图注:在 Aider 的 polyglot 基准测试中,模型需通过编辑源文件来完成来自 Exercism 的编程练习,并允许重试一次。其中,“whole” 格式要求模型重写整个文件,这种方式可能较慢且成本较高。而 “diff” 格式则要求模型生成一系列搜索/替换块,仅修改文件中需要变动的部分。
GPT‑4.1 在前端开发方面也相较 GPT‑4o 有了显著提升,能够构建出功能更完善、界面更美观的网页应用。在一对一的对比测试中,有偿人工评审在 80% 的情况下更倾向于 GPT‑4.1 所生成的网站,优于 GPT‑4o。
02.指令遵循
OpenAI开发了一个内部评估系统,用于跟踪GPT-4.1系列模型在多个维度和几个关键类别中的表现,包括:
格式遵循:提供指定模型响应格式的指令,例如 XML、YAML、Markdown 等。
负面指令:指定模型应避免的行为。(例如:“不要要求用户联系支持”)
顺序指令:提供一组需要按特定顺序执行的指令。(例如:“首先询问用户的名字,然后询问他们的电子邮件地址”)
内容要求:输出包含特定信息的内容。(例如:“编写营养计划时,始终包括蛋白质的含量”)
排序:按照特定方式对输出进行排序。(例如:“按人口数量排序响应”)
预防幻觉:指示模型在无法提供所请求信息或请求不属于某一特定类别时说“我不知道”或类似的回答。(例如:“如果你不知道答案,提供支持联系邮箱”)
这些类别是OpenAI根据开发者的反馈而设定的,他们认为这些是模型在指令遵循方面最重要的问题。在每个类别中,OpenAI将提示分为简单、中等和困难的级别。特别是在困难级别的提示上,GPT‑4.1 相较于 GPT‑4o 有较大提升。
图注:OpenAI的内部指令遵循评估基于真实开发者的使用案例和反馈,涵盖了各种复杂度的任务,并结合了关于格式、冗长程度、长度等方面的指令
多轮指令遵循对许多开发者来说至关重要,因为模型需要能够在对话中保持连贯性,并记住用户之前告诉它的信息。OpenAI已训练 GPT‑4.1 更好地从对话的历史消息中提取信息,从而实现更自然的对话。Scale 的 MultiChallenge 基准测试是衡量这一能力的有用指标,GPT‑4.1 在该测试中比 GPT‑4o 提高了 10.5% 的绝对分数。
图注:在 MultiChallenge中,模型需要在多轮对话中挑战,正确使用来自前一条消息的四种信息类型
GPT‑4.1 在 IFEval 上的得分为 87.4%,而 GPT‑4o 的得分为 81.0%。IFEval 使用带有可验证指令的提示,例如,指定内容长度或避免使用某些术语或格式。
图注:在 IFEval测试中,模型必须生成符合各种指令要求的回答
03 百万Token长上下文处理能力
GPT‑4.1、GPT‑4.1 mini 和 GPT‑4.1 nano 都支持处理最长达 100 万 Token 的上下文内容,相比之前 GPT‑4o 的 128,000 Token 实现了大幅跃升。100 万 Token 的容量,相当于超过 8 份完整的 React 代码库,因此长上下文功能非常适合用于处理大型代码库或超长文档。
OpenAI训练 GPT‑4.1 能够在完整的 100 万Token上下文长度中关注相关信息。该模型在识别有用文本、忽略干扰信息方面也比 GPT‑4o 更加可靠,无论是长上下文还是短上下文。长上下文理解能力对于法律、编程、客户支持等多个领域的应用来说,都是一项关键能力。
下图展示了 GPT‑4.1 在整个上下文窗口中检索“隐藏信息”(即“needle”)的能力,该信息被放置在不同位置。GPT‑4.1 始终能够准确地检索出 needle,无论其在输入中的位置或上下文长度如何,甚至是在最长 100 万 Token 的输入中。这表明它能够根据任务需要,精准提取出相关细节,而不受其在上下文中位置的影响。
当然,现实任务往往需要模型同时检索并理解多个信息。为此,OpenAI 推出新的评估基准 OpenAI-MRCR,用于测试模型在长上下文中区分多个相似请求的能力。任务挑战在于:上下文中插入多个几乎相同的请求,容易导致模型产生困惑。
GPT‑4.1 在长达 100 万 Token 的输入中表现明显优于 GPT‑4o。尽管任务困难,GPT‑4.1 展示了强大的多轮推理与上下文检索能力。OpenAI 已开源数据集,鼓励更多相关研究。
图注:在 OpenAI-MRCR中,模型必须回答涉及从干扰信息中辨别出上下文中 2、4 或 8 个用户请求
OpenAI还发布了 Graphwalks 数据集,用于评估模型在多步长上下文推理方面的能力。与 OpenAI-MRCR 不同,Graphwalks 无法通过顺序地通读上下文来解决,即便是人类也难以用“一遍读完”来完成任务。它专门设计为需要模型在上下文的多个位置之间进行推理。
Graphwalks 会用一个由十六进制哈希构成的有向图填满整个上下文,然后要求模型从图中一个随机节点开始,执行广度优先搜索(BFS),并返回某一深度下的所有节点。在这个评估中,GPT‑4.1 的准确率为 61.7%,与 o1 模型持平,优于 GPT‑4o,展示了其在复杂逻辑路径理解与多步推理中的优势。
图注:在 Graphwalks中,模型被要求从一个大型图中的随机节点开始执行广度优先搜索(BFS)
04 视觉能力
GPT‑4.1 系列模型在图像理解方面表现出色,尤其是 GPT‑4.1 mini ,在多个图像基准测试中经常优于 GPT‑4o。
图注:在 MMMU中,模型需要回答包含图表、图示、地图等内容的问题
图注:在 MathVista中,模型解决视觉数学任务
图注:在 CharXiv-Reasoning中,模型回答关于科学论文中图表的问题
图注:在 Video-MME中,模型根据没有字幕的30到60分钟长的视频回答多项选择题
定价
GPT‑4.1、GPT‑4.1 mini 和 GPT‑4.1 nano 现在已向所有开发者开放。通过对推理系统的效率改进,OpenAI 能够提供更低的 GPT‑4.1 价格。
与 GPT‑4o 相比,GPT‑4.1 在普通查询上便宜了 26%,而 GPT‑4.1 nano 是OpenAI 迄今为止最便宜且最快的模型。
对于反复使用相同上下文的查询,OpenAI 将此新模型的提示缓存折扣提高到 75%(之前为 50%)。最后,长上下文请求的费用仅按标准每个Token的费用计算,不会收取额外费用。
OpenAI表示,GPT‑4.1 是人工智能实际应用的重大进步。通过紧密关注现实开发者需求,从编码到指令遵循,再到长上下文理解,这些模型为构建智能系统和复杂的智能体应用开辟了新的可能性。
4月15日凌晨,OpenAI正式在API中推出全新的GPT-4.1系列模型。此次发布包括三款新模型,分别是GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三个新成员。其中,OpenAI声称GPT-4.1 nano是其迄今“最快、最便宜”的模型。
这些模型在各项指标上全面优于GPT-4o和GPT-4o mini,特别是在编程、指令遵循以及上下文理解方面表现突出。
它们还支持更长的上下文窗口,最大可达100万个Token。它们的知识更新日期为2024年6月。
以下为三款新模型的主要特点和应用场景:
GPT-4.1:OpenAI的旗舰级模型,擅长编码、指令遵循和长上下文理解,适用于处理复杂任务。
GPT-4.1 mini:OpenAI的高效小型模型,在多个基准测试中表现超越 GPT-4o,大幅减少延迟并降低 83% 成本,适合对性能要求高的场景。
GPT-4.1 nano:OpenAI 首个超小型模型,速度最快、成本最低,支持 100 万 Token 的上下文窗口,适用于低延迟任务,如分类和自动补全。
不过,需要注意的是:GPT-4.1 仅通过 API 提供。而在 ChatGPT 中,OpenAI已将许多 GPT-4.1 在指令遵循、编程和智能方面的改进逐步融入了最新版本的 GPT-4o,未来还会继续整合更多。
GPT-4.1 系列模型
行业标准评估表现
编程能力:在SWE-bench Verified编程基准上得分54.6%,相较GPT-4o提升了21.4个百分点,相较GPT-4.5提升了26.6个百分点。
指令遵循能力:在Scale的MultiChallenge基准上得分38.3%,比GPT-4o提升10.5个百分点。
长上下文理解能力:在Video-MME的无字幕长视频理解类别中得分72.0%,比GPT-4o提升6.7个百分点。
OpenAI表示,尽管基准测试数据提供了有价值的参考,但该公司在训练这些模型时,对它们进行了有针对性的优化,以支持开发者社区最关心的实际任务。
因此,GPT-4.1系列模型以更低的成本提供更优越的性能,OpenAI在降低延迟和提高吞吐量、准确率方面也都进行了优化。
按延迟划分
GPT-4.1系列智能表现
GPT-4.1 mini 在小模型性能方面取得了重大突破,在许多基准测试中超过GPT-4o。在智能评估中,它的表现不输GPT-4o,同时将延迟降低近一半,成本降低 83%。
OpenAI宣称,GPT-4.1 nano 是其迄今“最快、最便宜”的模型,专为低延迟场景设计,非常适合用于分类、自动补全等轻量高频任务。它具备百万 Token 的上下文窗口,并在多项指标上取得好成绩:
MMLU:80.1%
GPQA:50.3%
Aider polyglot(多语言编程):9.8%(高于 GPT-4o mini)
这些在指令遵循与长上下文理解方面的进步,使得 GPT-4.1 系列模型在驱动“AI 智能体(即能代表用户独立完成任务的系统)”方面有了很大提升。当与Responses API等基础组件结合时,开发者现在可以构建更可靠实用的智能体系统,可以帮助自动化软件工程任务、从大文档中提炼摘要以及更高效地处理客户请求等。
与此同时,GPT-4.5 Preview 也将退役,因为 GPT-4.1 在多数关键能力上以更低成本和延迟实现了相近甚至更优的性能。
OpenAI从编程、指令、上下文支持等多个维度方面,展示GPT-4.1系列模型的能力。
01 编程能力优于GPT-4o
GPT‑4.1 在多种编程任务中的表现明显优于 GPT‑4o,包括能够以智能体方式独立完成编程任务、前端开发、更少的无关修改、更可靠地遵循 diff 格式、保持工具使用的一致性等方面。
在 SWE-bench Verified(衡量真实世界软件工程技能的基准测试)中,GPT‑4.1 完成了 54.6% 的任务,而 GPT‑4o(2024-11-20 版本)仅完成了 33.2%。这反映出模型在浏览代码库、完成任务,以及生成既能运行又能通过测试的代码方面能力的提升。
图注:在 SWE-bench Verified 测试中,模型会被提供一个代码库和一个问题描述,并需要生成一个补丁来解决该问题
对于希望通过 API 编辑大型文件的开发者来说,GPT‑4.1 在多种格式的代码差异(code diff)处理上表现更加可靠。在 Aider 的 polyglot diff 基准测试中,GPT‑4.1 的得分是 GPT‑4o 的两倍以上,并且比 GPT‑4.5 高出 8 个百分点。
OpenAI对 GPT‑4.1 进行了特别训练,使其能更可靠地遵循 diff 格式,从而让开发者仅输出修改的代码行,而非重写整个文件,进而节省成本与延迟。
对于更偏好重写整个文件的开发者,OpenAI已将 GPT‑4.1 的输出 Token 上限提升至 32,768(相比之下,GPT‑4o 为 16,384)。
图注:在 Aider 的 polyglot 基准测试中,模型需通过编辑源文件来完成来自 Exercism 的编程练习,并允许重试一次。其中,“whole” 格式要求模型重写整个文件,这种方式可能较慢且成本较高。而 “diff” 格式则要求模型生成一系列搜索/替换块,仅修改文件中需要变动的部分。
GPT‑4.1 在前端开发方面也相较 GPT‑4o 有了显著提升,能够构建出功能更完善、界面更美观的网页应用。在一对一的对比测试中,有偿人工评审在 80% 的情况下更倾向于 GPT‑4.1 所生成的网站,优于 GPT‑4o。
02.指令遵循
OpenAI开发了一个内部评估系统,用于跟踪GPT-4.1系列模型在多个维度和几个关键类别中的表现,包括:
格式遵循:提供指定模型响应格式的指令,例如 XML、YAML、Markdown 等。
负面指令:指定模型应避免的行为。(例如:“不要要求用户联系支持”)
顺序指令:提供一组需要按特定顺序执行的指令。(例如:“首先询问用户的名字,然后询问他们的电子邮件地址”)
内容要求:输出包含特定信息的内容。(例如:“编写营养计划时,始终包括蛋白质的含量”)
排序:按照特定方式对输出进行排序。(例如:“按人口数量排序响应”)
预防幻觉:指示模型在无法提供所请求信息或请求不属于某一特定类别时说“我不知道”或类似的回答。(例如:“如果你不知道答案,提供支持联系邮箱”)
这些类别是OpenAI根据开发者的反馈而设定的,他们认为这些是模型在指令遵循方面最重要的问题。在每个类别中,OpenAI将提示分为简单、中等和困难的级别。特别是在困难级别的提示上,GPT‑4.1 相较于 GPT‑4o 有较大提升。
图注:OpenAI的内部指令遵循评估基于真实开发者的使用案例和反馈,涵盖了各种复杂度的任务,并结合了关于格式、冗长程度、长度等方面的指令
多轮指令遵循对许多开发者来说至关重要,因为模型需要能够在对话中保持连贯性,并记住用户之前告诉它的信息。OpenAI已训练 GPT‑4.1 更好地从对话的历史消息中提取信息,从而实现更自然的对话。Scale 的 MultiChallenge 基准测试是衡量这一能力的有用指标,GPT‑4.1 在该测试中比 GPT‑4o 提高了 10.5% 的绝对分数。
图注:在 MultiChallenge中,模型需要在多轮对话中挑战,正确使用来自前一条消息的四种信息类型
GPT‑4.1 在 IFEval 上的得分为 87.4%,而 GPT‑4o 的得分为 81.0%。IFEval 使用带有可验证指令的提示,例如,指定内容长度或避免使用某些术语或格式。
图注:在 IFEval测试中,模型必须生成符合各种指令要求的回答
03 百万Token长上下文处理能力
GPT‑4.1、GPT‑4.1 mini 和 GPT‑4.1 nano 都支持处理最长达 100 万 Token 的上下文内容,相比之前 GPT‑4o 的 128,000 Token 实现了大幅跃升。100 万 Token 的容量,相当于超过 8 份完整的 React 代码库,因此长上下文功能非常适合用于处理大型代码库或超长文档。
OpenAI训练 GPT‑4.1 能够在完整的 100 万Token上下文长度中关注相关信息。该模型在识别有用文本、忽略干扰信息方面也比 GPT‑4o 更加可靠,无论是长上下文还是短上下文。长上下文理解能力对于法律、编程、客户支持等多个领域的应用来说,都是一项关键能力。
下图展示了 GPT‑4.1 在整个上下文窗口中检索“隐藏信息”(即“needle”)的能力,该信息被放置在不同位置。GPT‑4.1 始终能够准确地检索出 needle,无论其在输入中的位置或上下文长度如何,甚至是在最长 100 万 Token 的输入中。这表明它能够根据任务需要,精准提取出相关细节,而不受其在上下文中位置的影响。
当然,现实任务往往需要模型同时检索并理解多个信息。为此,OpenAI 推出新的评估基准 OpenAI-MRCR,用于测试模型在长上下文中区分多个相似请求的能力。任务挑战在于:上下文中插入多个几乎相同的请求,容易导致模型产生困惑。
GPT‑4.1 在长达 100 万 Token 的输入中表现明显优于 GPT‑4o。尽管任务困难,GPT‑4.1 展示了强大的多轮推理与上下文检索能力。OpenAI 已开源数据集,鼓励更多相关研究。
图注:在 OpenAI-MRCR中,模型必须回答涉及从干扰信息中辨别出上下文中 2、4 或 8 个用户请求
OpenAI还发布了 Graphwalks 数据集,用于评估模型在多步长上下文推理方面的能力。与 OpenAI-MRCR 不同,Graphwalks 无法通过顺序地通读上下文来解决,即便是人类也难以用“一遍读完”来完成任务。它专门设计为需要模型在上下文的多个位置之间进行推理。
Graphwalks 会用一个由十六进制哈希构成的有向图填满整个上下文,然后要求模型从图中一个随机节点开始,执行广度优先搜索(BFS),并返回某一深度下的所有节点。在这个评估中,GPT‑4.1 的准确率为 61.7%,与 o1 模型持平,优于 GPT‑4o,展示了其在复杂逻辑路径理解与多步推理中的优势。
图注:在 Graphwalks中,模型被要求从一个大型图中的随机节点开始执行广度优先搜索(BFS)
04 视觉能力
GPT‑4.1 系列模型在图像理解方面表现出色,尤其是 GPT‑4.1 mini ,在多个图像基准测试中经常优于 GPT‑4o。
图注:在 MMMU中,模型需要回答包含图表、图示、地图等内容的问题
图注:在 MathVista中,模型解决视觉数学任务
图注:在 CharXiv-Reasoning中,模型回答关于科学论文中图表的问题
图注:在 Video-MME中,模型根据没有字幕的30到60分钟长的视频回答多项选择题
定价
GPT‑4.1、GPT‑4.1 mini 和 GPT‑4.1 nano 现在已向所有开发者开放。通过对推理系统的效率改进,OpenAI 能够提供更低的 GPT‑4.1 价格。
与 GPT‑4o 相比,GPT‑4.1 在普通查询上便宜了 26%,而 GPT‑4.1 nano 是OpenAI 迄今为止最便宜且最快的模型。
对于反复使用相同上下文的查询,OpenAI 将此新模型的提示缓存折扣提高到 75%(之前为 50%)。最后,长上下文请求的费用仅按标准每个Token的费用计算,不会收取额外费用。
OpenAI表示,GPT‑4.1 是人工智能实际应用的重大进步。通过紧密关注现实开发者需求,从编码到指令遵循,再到长上下文理解,这些模型为构建智能系统和复杂的智能体应用开辟了新的可能性。