提前上线!OpenAI 发布全新经济型模型 o3-mini,深度对标 DeepSeek

管理智慧

2小时前

这个模型从2024年12月发布以来,表现出了很强的运算能力和快速响应速度,打破了小型模型的能力界限,特别是在科学、数学和编程等专业领域表现得非常出色,同时保持了和老款o1-mini一样的低成本和快速响应优势。

作者|AI工作坊

来源 |AI深度研究员 管理智慧

咨询合作| 13699120588

文章仅代表作者本人观点

受 DeepSeek 全球影响力的推动,OpenAI 于美国时间周五正式提前发布了全新模型 o3-mini。这款最初在去年 12 月"12 天"AI 活动中亮相的模型,经过数月准备,现已在 ChatGPT 和 API 中全面部署。OpenAI 全球事务副总裁 Chris LeHane 在美国国家公共电台(NPR)近期的一次采访中确认了这个消息。而在此之前,CEO Sam Altman 也曾多次在社交媒体上暗示要优先推出 o3-mini。

作为一款专为科学、数学和编程等技术领域打造的模型,o3-mini 不仅展现出强大的推理能力,还以其快速响应特点而引人注目。与完整版 o3 相比,o3-mini 提供了更经济、更快速的解决方案,被业内视为高性价比推理技术的重要突破。这次提前发布,也被解读为 OpenAI 对 DeepSeek 日益增长的市场影响力做出的积极回应。

o3-mini 为不同用户群体提供的访问和功能选项:

免费用户:通过"Reason"按钮或重新生成响应体验核心推理功能

Plus 和 Team 用户:速率限制提升至原先三倍,加快问题解答速度

Pro 用户:可无限访问 o3-mini 和更高智力版本 o3-mini-high

搜索功能特点:

实时提供最新答案并附带网页链接

目前为原型阶段,将扩展至更多推理模型

安全性能:

经过全面的安全评估和外部红队测试

相比 GPT-4o,在处理复杂安全和"越狱"场景时表现更为稳健

o3体验链接:https://chatgpt.com/?model=o3-mini

01

OpenAI o3-mini

全新的 o3-mini 模型,这是一款既便宜又高效的人工智能产品,现已在 ChatGPT 和 API 平台上全面推出。这个模型从 2024 年 12 月发布以来,表现出了很强的运算能力和快速响应速度,打破了小型模型的能力界限,特别是在科学、数学和编程等专业领域表现得非常出色,同时保持了和老款 o1-mini 一样的低成本和快速响应优势。

o3-mini 是第一个支持开发者特殊功能的小型智能模型,包括函数调用、结构化输出和开发者消息等功能,可以直接用于实际工作环境。这个模型支持流式传输,开发者可以根据需要在低、中、高三种智能程度之间随意切换,以达到最好的工作效果。不过要注意的是,o3-mini 不能处理图像任务,如果需要处理图像,还是要使用 OpenAI o1。目前,o3-mini 已经在多个 API 接口上线,优先向高级开发者开放使用。

在使用权限方面,ChatGPT Plus、Team 和 Pro 用户现在就能使用 o3-mini,企业版用户将在一周内开放使用。o3-mini 将完全替代老款的 o1-mini,提供更快的运行速度和更低的延迟,非常适合编程、专业领域和逻辑分析工作。Plus 和 Team 用户每天可以使用的次数也从原来的 50 次增加到了 150 次。此外,o3-mini 还加入了搜索功能,可以提供带网页链接的最新答案,虽然这个功能还在测试中。

免费用户也可以通过选择"Reason"按钮或重新生成回答来体验 o3-mini,这是 ChatGPT 首次让免费用户使用高级智能模型。在功能定位上,OpenAI o1 仍然是处理一般知识问题的主力模型,而 o3-mini 则专门负责需要高精度和快速处理的专业领域。在 ChatGPT 平台上,o3-mini 使用中等智能程度,以平衡速度和准确性。所有付费用户还可以选择更智能的 o3-mini-high 版本,虽然反应较慢,但能提供更深入的分析能力。特别是 Pro 用户可以无限制地使用 o3-mini 和 o3-mini-high。

02

为 STEM 推理量身优化

OpenAI 的新模型 o3-mini 继承并加强了前代产品 o1 在数学、科学和编程等专业领域的优势。当使用中等智能模式时,o3-mini 在这些领域的表现可以和 o1 相媲美,而且响应速度更快。

专业人士的评测发现,相比老款的 o1-mini,o3-mini 给出的答案更加准确,思路更加清晰,解决问题的能力也更强。比如在测试中,有超过一半的用户更喜欢 o3-mini 的回答。当处理复杂的实际问题时,o3-mini 的错误率也大大降低,比 o1-mini 减少了39%的严重错误。更令人印象深刻的是,在一些高难度的推理测试和智能测试中,即使只用中等智能模式,o3-mini 也能达到 o1 的水平。

一、数学竞赛

数学能力:OpenAI 新模型 o3-mini 的数学能力表现十分优秀。在设置为基础模式时,它的数学水平和老款 o1-mini 差不多。当设置为普通模式时,它的能力就能达到高级模型 o1 的水平。而当设置为高级模式时,o3-mini 的数学推理能力更是超过了 o1-mini 和 o1 这两款老模型。为了验证这个结果的可靠性,研究人员用64道数学题进行了测试,让不同模型都来解答,最后通过对比它们的答案得出结论。这些测试进一步证实了 o3-mini 确实表现出色,尤其是在高级模式下的数学解题能力特别强。

二、博士难度科学推理测试

博士级科学推理:o3-mini 在处理高难度的科学问题时表现出色。即使在最基础的设置下,它解决生物、化学和物理等高深问题的能力就已经比老款 o1-mini 要强。当把它调到最高级的设置时,它甚至能和专业的 o1 模型一样出色地回答这些专业科学问题。三、高阶数学测试

研究级数学推理:在高难度数学测试中表现优秀。当使用最高级设置时,它的成绩超过了之前的老模型。特别是当让它配合使用 Python 编程来解题时,o3-mini 一次就能正确解出超过三分之一的题目。即使面对最难的那部分题目,它也能解出接近三成,这个成绩相当不错。这说明它不仅会做普通数学题,在研究级别的高深数学问题上也有很强的解答能力。

四、算法竞赛编程

算法竞赛编程:在编程比赛中也表现很好。就像玩游戏有段位一样,在编程比赛中也有分数评级系统(叫做Elo评分)。测试发现,当把 o3-mini 的智能程度逐步调高时,它的比赛成绩也会相应提高。在各个难度等级的比赛中,o3-mini 都比老款的 o1-mini 表现得更好。特别是当设置在普通模式时,它就已经能达到高级模型 o1 的水平。这说明 o3-mini 在解决编程竞赛题目方面非常有实力。

五、软件工程测试(SWE-bench Verified)

软件工程能力:在软件开发能力测试中表现出色,是目前所有已发布模型中最强的。具体来说,当使用最高级设置时,在一个叫做 Agentless scaffold 的开源工具帮助下,它能成功完成39%的开发任务。如果使用 OpenAI 自己的工具,成功率还能提高到61%。这些数据来自一个叫做 SWE-bench Verified 的专业测试平台。如果想了解更多详细的测试数据,可以查看 o3-mini 的技术说明文档。这就像是一场编程考试,o3-mini 不仅考得好,而且在所有参加考试的人工智能模型中拿到了最高分,展现出很强的实际编程能力。

六、实时编程评测(LiveBench Coding)

实时编程评测:在实时编程测试中展现出了惊人的表现。就像跑步比赛一样,o3-mini 不仅跑得快,而且质量还很好。即使只用普通模式,它的编程能力就已经超过了老款高级版本 o1-high。当把 o3-mini 调到最高级模式时,它的表现更是出色。在测试中的重要评分项目上,都显示出了很强的实力。这说明无论是编程速度还是代码质量,o3-mini 都做得非常好。

七、综合知识能力

综合知识能力:OpenAI 新模型 o3-mini 在测试一般知识时的表现很出色,各个方面都比老款的 o1-mini 要强。简单来说,不管是回答什么类型的问题,o3-mini 都比 o1-mini 更厉害。

八、用户偏好评测

用户偏好评测:OpenAI 新模型 o3-mini 获得了很好的评价。专业测试人员发现,特别是在数学、科学和编程等专业领域,o3-mini 给出的答案比老款 o1-mini 更准确、更容易理解,解决问题的能力也更强。具体来说,在对比测试中,超过一半的测试人员(56%)都觉得 o3-mini 的回答更好。更重要的是,当处理复杂的实际问题时,o3-mini 犯大错的概率比 o1-mini 少了将近四成(39%)。这说明 o3-mini 不仅回答得更好,而且更可靠。


OpenAI 选择在这个时刻加快发布 o3-mini,展现了其在性能优化方面的显著突破。测试数据显示,比起老款 o1-mini,o3-mini 回答问题的速度提升了24%,平均只需要7.7秒就能给出答案,而 o1-mini 则需要10.16秒。这种性能的提升不仅体现在速度上,在专业领域的实际应用中也表现出色。

展望未来,o3-mini 作为一款经济、高效的专业模型,代表了 OpenAI 在高性价比人工智能领域的重要突破。从最初在"12天"AI 活动中的亮相,到现在的全面部署,OpenAI 一直致力于让更多人能使用高质量的 AI 服务。从 GPT-4 发布至今,每个计算单位的成本已降低95%,同时保持着领先的智能水平。随着 Sam Altman 持续推动的发展策略,OpenAI 将继续在智能、效率和安全性方面引领行业发展。

参考资料:https://openai.com/index/openai-o3-mini/

END

华夏基石AI战略领导力特训营2025年第四期开始报名!

抓住数字智能时代的机遇,团报即可享受优惠!

机会难得,名额有限,别错过!

报名及咨询:柳老师15202171854

喜欢这篇文章

请为我点赞和在看

这个模型从2024年12月发布以来,表现出了很强的运算能力和快速响应速度,打破了小型模型的能力界限,特别是在科学、数学和编程等专业领域表现得非常出色,同时保持了和老款o1-mini一样的低成本和快速响应优势。

作者|AI工作坊

来源 |AI深度研究员 管理智慧

咨询合作| 13699120588

文章仅代表作者本人观点

受 DeepSeek 全球影响力的推动,OpenAI 于美国时间周五正式提前发布了全新模型 o3-mini。这款最初在去年 12 月"12 天"AI 活动中亮相的模型,经过数月准备,现已在 ChatGPT 和 API 中全面部署。OpenAI 全球事务副总裁 Chris LeHane 在美国国家公共电台(NPR)近期的一次采访中确认了这个消息。而在此之前,CEO Sam Altman 也曾多次在社交媒体上暗示要优先推出 o3-mini。

作为一款专为科学、数学和编程等技术领域打造的模型,o3-mini 不仅展现出强大的推理能力,还以其快速响应特点而引人注目。与完整版 o3 相比,o3-mini 提供了更经济、更快速的解决方案,被业内视为高性价比推理技术的重要突破。这次提前发布,也被解读为 OpenAI 对 DeepSeek 日益增长的市场影响力做出的积极回应。

o3-mini 为不同用户群体提供的访问和功能选项:

免费用户:通过"Reason"按钮或重新生成响应体验核心推理功能

Plus 和 Team 用户:速率限制提升至原先三倍,加快问题解答速度

Pro 用户:可无限访问 o3-mini 和更高智力版本 o3-mini-high

搜索功能特点:

实时提供最新答案并附带网页链接

目前为原型阶段,将扩展至更多推理模型

安全性能:

经过全面的安全评估和外部红队测试

相比 GPT-4o,在处理复杂安全和"越狱"场景时表现更为稳健

o3体验链接:https://chatgpt.com/?model=o3-mini

01

OpenAI o3-mini

全新的 o3-mini 模型,这是一款既便宜又高效的人工智能产品,现已在 ChatGPT 和 API 平台上全面推出。这个模型从 2024 年 12 月发布以来,表现出了很强的运算能力和快速响应速度,打破了小型模型的能力界限,特别是在科学、数学和编程等专业领域表现得非常出色,同时保持了和老款 o1-mini 一样的低成本和快速响应优势。

o3-mini 是第一个支持开发者特殊功能的小型智能模型,包括函数调用、结构化输出和开发者消息等功能,可以直接用于实际工作环境。这个模型支持流式传输,开发者可以根据需要在低、中、高三种智能程度之间随意切换,以达到最好的工作效果。不过要注意的是,o3-mini 不能处理图像任务,如果需要处理图像,还是要使用 OpenAI o1。目前,o3-mini 已经在多个 API 接口上线,优先向高级开发者开放使用。

在使用权限方面,ChatGPT Plus、Team 和 Pro 用户现在就能使用 o3-mini,企业版用户将在一周内开放使用。o3-mini 将完全替代老款的 o1-mini,提供更快的运行速度和更低的延迟,非常适合编程、专业领域和逻辑分析工作。Plus 和 Team 用户每天可以使用的次数也从原来的 50 次增加到了 150 次。此外,o3-mini 还加入了搜索功能,可以提供带网页链接的最新答案,虽然这个功能还在测试中。

免费用户也可以通过选择"Reason"按钮或重新生成回答来体验 o3-mini,这是 ChatGPT 首次让免费用户使用高级智能模型。在功能定位上,OpenAI o1 仍然是处理一般知识问题的主力模型,而 o3-mini 则专门负责需要高精度和快速处理的专业领域。在 ChatGPT 平台上,o3-mini 使用中等智能程度,以平衡速度和准确性。所有付费用户还可以选择更智能的 o3-mini-high 版本,虽然反应较慢,但能提供更深入的分析能力。特别是 Pro 用户可以无限制地使用 o3-mini 和 o3-mini-high。

02

为 STEM 推理量身优化

OpenAI 的新模型 o3-mini 继承并加强了前代产品 o1 在数学、科学和编程等专业领域的优势。当使用中等智能模式时,o3-mini 在这些领域的表现可以和 o1 相媲美,而且响应速度更快。

专业人士的评测发现,相比老款的 o1-mini,o3-mini 给出的答案更加准确,思路更加清晰,解决问题的能力也更强。比如在测试中,有超过一半的用户更喜欢 o3-mini 的回答。当处理复杂的实际问题时,o3-mini 的错误率也大大降低,比 o1-mini 减少了39%的严重错误。更令人印象深刻的是,在一些高难度的推理测试和智能测试中,即使只用中等智能模式,o3-mini 也能达到 o1 的水平。

一、数学竞赛

数学能力:OpenAI 新模型 o3-mini 的数学能力表现十分优秀。在设置为基础模式时,它的数学水平和老款 o1-mini 差不多。当设置为普通模式时,它的能力就能达到高级模型 o1 的水平。而当设置为高级模式时,o3-mini 的数学推理能力更是超过了 o1-mini 和 o1 这两款老模型。为了验证这个结果的可靠性,研究人员用64道数学题进行了测试,让不同模型都来解答,最后通过对比它们的答案得出结论。这些测试进一步证实了 o3-mini 确实表现出色,尤其是在高级模式下的数学解题能力特别强。

二、博士难度科学推理测试

博士级科学推理:o3-mini 在处理高难度的科学问题时表现出色。即使在最基础的设置下,它解决生物、化学和物理等高深问题的能力就已经比老款 o1-mini 要强。当把它调到最高级的设置时,它甚至能和专业的 o1 模型一样出色地回答这些专业科学问题。三、高阶数学测试

研究级数学推理:在高难度数学测试中表现优秀。当使用最高级设置时,它的成绩超过了之前的老模型。特别是当让它配合使用 Python 编程来解题时,o3-mini 一次就能正确解出超过三分之一的题目。即使面对最难的那部分题目,它也能解出接近三成,这个成绩相当不错。这说明它不仅会做普通数学题,在研究级别的高深数学问题上也有很强的解答能力。

四、算法竞赛编程

算法竞赛编程:在编程比赛中也表现很好。就像玩游戏有段位一样,在编程比赛中也有分数评级系统(叫做Elo评分)。测试发现,当把 o3-mini 的智能程度逐步调高时,它的比赛成绩也会相应提高。在各个难度等级的比赛中,o3-mini 都比老款的 o1-mini 表现得更好。特别是当设置在普通模式时,它就已经能达到高级模型 o1 的水平。这说明 o3-mini 在解决编程竞赛题目方面非常有实力。

五、软件工程测试(SWE-bench Verified)

软件工程能力:在软件开发能力测试中表现出色,是目前所有已发布模型中最强的。具体来说,当使用最高级设置时,在一个叫做 Agentless scaffold 的开源工具帮助下,它能成功完成39%的开发任务。如果使用 OpenAI 自己的工具,成功率还能提高到61%。这些数据来自一个叫做 SWE-bench Verified 的专业测试平台。如果想了解更多详细的测试数据,可以查看 o3-mini 的技术说明文档。这就像是一场编程考试,o3-mini 不仅考得好,而且在所有参加考试的人工智能模型中拿到了最高分,展现出很强的实际编程能力。

六、实时编程评测(LiveBench Coding)

实时编程评测:在实时编程测试中展现出了惊人的表现。就像跑步比赛一样,o3-mini 不仅跑得快,而且质量还很好。即使只用普通模式,它的编程能力就已经超过了老款高级版本 o1-high。当把 o3-mini 调到最高级模式时,它的表现更是出色。在测试中的重要评分项目上,都显示出了很强的实力。这说明无论是编程速度还是代码质量,o3-mini 都做得非常好。

七、综合知识能力

综合知识能力:OpenAI 新模型 o3-mini 在测试一般知识时的表现很出色,各个方面都比老款的 o1-mini 要强。简单来说,不管是回答什么类型的问题,o3-mini 都比 o1-mini 更厉害。

八、用户偏好评测

用户偏好评测:OpenAI 新模型 o3-mini 获得了很好的评价。专业测试人员发现,特别是在数学、科学和编程等专业领域,o3-mini 给出的答案比老款 o1-mini 更准确、更容易理解,解决问题的能力也更强。具体来说,在对比测试中,超过一半的测试人员(56%)都觉得 o3-mini 的回答更好。更重要的是,当处理复杂的实际问题时,o3-mini 犯大错的概率比 o1-mini 少了将近四成(39%)。这说明 o3-mini 不仅回答得更好,而且更可靠。


OpenAI 选择在这个时刻加快发布 o3-mini,展现了其在性能优化方面的显著突破。测试数据显示,比起老款 o1-mini,o3-mini 回答问题的速度提升了24%,平均只需要7.7秒就能给出答案,而 o1-mini 则需要10.16秒。这种性能的提升不仅体现在速度上,在专业领域的实际应用中也表现出色。

展望未来,o3-mini 作为一款经济、高效的专业模型,代表了 OpenAI 在高性价比人工智能领域的重要突破。从最初在"12天"AI 活动中的亮相,到现在的全面部署,OpenAI 一直致力于让更多人能使用高质量的 AI 服务。从 GPT-4 发布至今,每个计算单位的成本已降低95%,同时保持着领先的智能水平。随着 Sam Altman 持续推动的发展策略,OpenAI 将继续在智能、效率和安全性方面引领行业发展。

参考资料:https://openai.com/index/openai-o3-mini/

END

华夏基石AI战略领导力特训营2025年第四期开始报名!

抓住数字智能时代的机遇,团报即可享受优惠!

机会难得,名额有限,别错过!

报名及咨询:柳老师15202171854

喜欢这篇文章

请为我点赞和在看

展开
打开“财经头条”阅读更多精彩资讯
APP内打开