OpenAI发布GPT-4.5:主打情商高,OpenAI最大最贵模型

Datawhale

1天前

今天凌晨4点,OpenAI进行了在线技术直播,奥特曼并没有现身

OpenAI 正式发布了其最大、最强的聊天模型 GPT‑4.5 研究预览版本。

奥特曼发推称,GPT‑4.5 让他第一次感觉像在与一个有思想的人在交谈,可以从模型那里得到真正好的建议。

OpenAI 表示,GPT-4.5 在扩展预训练和后训练方面向前迈出了一步。通过扩展无监督学习,GPT-4.5 提高了识别模式、建立联系和产生创造性见解的能力,而无需推理。这意味着,GPT-4.5 从一开始就不是一个推理模型。

OpenAI 的早期测试表明,与 GPT-4.5 的交互感觉更自然。它的知识库更广泛,更能遵循用户意图,而且「情商」更高,使得在提高写作、编程和解决实际问题等任务中非常有用。同时,GPT-4.5 还减少了幻觉出现。

Cognition 联合创始人兼 CEO Scott Wu 分享了使用 GPT-4.5 的体验,表示非常棒。在他们的智能体编码基准测试中,GPT-4.5 相较于 o1 和 4o 实现大幅改进。同时发现一个有趣的数据点:虽然 GPT-4.5 和 Claude 3.7 Sonnet 在整体基准测试中得分相似,但他们发现 GPT-4.5 在涉及架构和跨系统交互的任务上峰值更大,而 Claude 3.7 Sonnet 在原始编码和代码编辑上峰值更大。

图源:https://x.com/ScottWu46/status/1895209597084017073

但值得吐槽的是,GPT-4.5 的 token 定价着实有些夸张:每 1M tokens 输入价格为 75 刀,输出价格为 150 刀。

从今天开始,ChatGPT Pro 用户可以在网页版、手机版和桌面版使用 GPT-4.5。下周将向 Plus 和 Team 用户开放,再下周向企业和 Edu 用户开放。

现在,GPT-4.5 只支持搜索、上传文件和图片和画布功能,还不支持语音模式、视频和屏幕共享等多模态功能。OpenAI 表示,未来会持续更新,让产品变得更容易使用。

GPT4.5通过两种范式提升能力

作为OpenAI目前规模最大、知识储备最丰富的模型,GPT-4.5通过扩展两种不同范式来提升AI能力——无监督学习和推理能力。

其中,推理会让GPT-4.5在回应前先思考,这提高了它在科学、数学和其他困难复杂问题上的性能。

而无监督学习,则增加了模型的词汇知识、直觉力,并减少了模型幻觉。

注意,跟o系列模型不同,GPT-4.5并不会一步一步推理,但它更实用、本质上更智能。

尤其因为它不是推理模型,OpenAI的研究者们也仍在对之试验,探索无监督学习究竟能展现出什么样的能力。

迄今最好的聊天模型:更体察,更细腻

GPT-4.5的最大特色,就是交互非常自然,被评为OpenAI「迄今最好的聊天模型」,

原因就在于,它有更深入的知识,和更好的上下文理解能力,在改进写作、编程或解决实际问题等任务上特别有用。

研究者现场演示了一把,跟GPT-4.5对话究竟是什么样的体验。

告诉它:「朋友们又把我鸽了!帮我写个消息,告诉他们我恨他们。」

可以看到,GPT-4.5敏锐地觉察到了他的沮丧,语气柔和地给予了安慰,提供了细腻的建议。

而与之形成对比的,就是看起来「不近人情」的o1了。

它虽然的确给出了愤怒的恢复,但并没有捕捉到作者话语间传达出来的暗示——能不能安慰我一下。

下一个考验,是让两个模型分别从第一性原理,解释AI对齐是什么。

对比之下可以看出,o1虽然提供了大量有用信息和知识点,但GPT-4.5的回答更加自然流畅。

研究者表示,对模型来说,我们需要教会它们更好地理解人类需求和意图。

为此,他们针对GPT-4.5开发了新的可扩展对齐技术,这样就能从较小模型获得的数据来训练它,于是真正释放了它的深层世界模型。

在后面我们会看到,GPT-4.5在准确率上超越了其他GPT模型,同时也实现了最低的幻觉率。

OpenAI还特意邀请了人类测试者将其与GPT-4o进行对比,结果显示,GPT-4.5 在几乎所有类别中都表现更优异,对话得更温暖、更直观、情感更加细腻。

华人研究者Youlong,负责的是后训练基础设施。

他和同事们发现,运行如此大规模的模型,就要求后训练基础设施进一步优化,因为预训练阶段和后训练阶段的训练数据与参数规模比例有很大差异。

为此,他们开发了一种新的训练机制,用更少的计算开销来微调这样规模的模型。

结合监督微调和RLHF,他们通过多轮迭代进行后期训练,终于开发出了一个可以部署的新模型。

给GPT-4.5投入最大的计算能力

接下来,他们问了所有模型这样一个问题:海水为什么是咸的?

我们从GPT-4.5倒着看各代模型的回答。

可以看到,从GPT-4T开始,模型回答的质量就会稍好一些。而GPT-4.5的表现,显然最精彩——清晰、精确、一致,而且非常有趣。

左右滑动查看

比如这句「海水是咸的,是由于雨水、河流和石头」,通俗易懂又好记,充分体现了GPT-4.5的个性。

研究者介绍说,除了为实现GPT-4.5而进行的系统扩展工作外,他们还在架构、数据和优化方面投入了大量工作来实现训练。

Scaling「无监督学习」边界


正如前文所述,凭借双重buff加持下——Scaling无监督学习和推理,GPT-4.5性能取得了显著提升。

无监督学习和推理,代表着智力的两个维度。

· 推理

Scaling推理能力教会模型在回答前进行思考并生成思维链,使其能够处理复杂的STEM或逻辑问题。

比如,o1和o3-mini模型,就是这种模式的代表。

· 无监督学习

另一方面,无监督学习则是让模型对世界的理解更准确,凭直觉判断更聪明。

GPT-4.5就是无监督学习的典型案例。

通过增加计算能力和数据量,再加上架构和优化创新,使其变得知识更广、对世界的理解更深。

知识渊博,击败Grok 3

GPT-4.5具备了强大的世界知识,在问答基准上,准确率明显超越了Grok 3、GPT-4o、o3-mini。

GPT-4.5得分62.5%,比Grok 3明显提升近20%。

与此同时,在幻觉方面,GPT-4.5是最低的,仅有37.1%。而o3-mini幻觉率高达80.3%。

同一个问题,GPT-1到GPT-4.5的回答

具体来说,GPT-4.5在回答问题方面,和前几代模型的区别在哪?

给到同样一个问题——世界第一门语言是什么?

可以看到GPT-1只是不断地重复问题,并没有给出解释或者答案而且似乎有点停不下来。

到了2019年出世的GPT-2,则能够回答出一段完整的回复了。

只是这个回复与给出的问题相比不能说毫无关系吧,只能说是关系不大。

GPT-2只是解释说了什么是「语言」,但对于什么是第一种语言则没有提及。

到了GPT-3.5时,模型终于给出了一个像样的回答。

GPT-3.5能够明确「第一种」与「语言」之间的关联,并且给出了最早的书面语言是苏美尔的楔形文字。

对于口语部分,它则表示很难确定。

可以看出到了GPT-4T时期,模型已经可以给出比较详细的回复了,而且回答包含的信息也是比较丰富的。

再来看刚刚发布的GPT-4.5,回复又有了明显的提升。

它的回复更加结构化了,而且它首先就给出了明确的回复:「我们无法确切知道第一种语言是什么」。

接着,它列出了一些事实,指出了为什么「人类第一种语言的确切身份仍然是一个谜」,还强调了「很可能将永远如此」。

我们无法确切知道第一种语言是什么,科学家们认为我们可能永远无法确定,因为口语早在书面记录存在之前就已经出现了。

以下是我们所知道的:

· 没有单一的「第一语言」:语言很可能在大约几万甚至几十万年前,同时在不同的人类群体中逐渐发展起来。

· 起源于非洲:大多数科学家认为,口语可能最早出现在非洲的人类中,或许在超过10万年前。

· 原始语言:人类可能并非从单一语言开始,而是从简单的交流方式起步,逐渐演变为更复杂的语言。最早的语言形式可能包括手势、声音和信号,用来表达基本的想法和情感。

· 湮没于历史:由于口语没有直接留下化石记录,而文字的出现相对较晚(大约5000年前),我们无法确切知道最早的语言听起来是什么样子。

如今,语言学家通过研究现存语言来了解它们在数千年中的演变,但人类第一种语言的确切身份仍然是一个谜,并且很可能将永远如此。

最懂人心,会察言观色

在于人类协作方面,测试者在每日查询、专业查询、创意智能方面,更喜欢GPT-4.5的回答,而非GPT-4o。

OpenAI通过scaling训练规模,让它们能够解决更复杂问题,并教会它们更深入地理解人类需求和意图。

具体来说,创新训练技术能够从较小模型中提取数据,然后训练出更大、更强大的模型。

得益于此,GPT-4.5可控性、对细微差别的理解能力,以及自然对话的表现大幅提升。

总的来说,GPT-4.5能更好地理解人类的意图,并以更高的细腻度、「情商」解读微妙的线索或隐含的期望。

此外,GPT-4.5还展现出更强的审美直觉和创造力,在写作和设计方面的协助尤为出色。

· 情商大比拼

接下来,就让我们在具体案例中,看看GPT-4.5的情商有多高。

当你和GPT-4.5、GPT-4o、o3-mini说,「我最近考试没过,现在心情特别糟,很难受...」,它们反应如何?

可以看出,GPT-4.5特别会安慰人,有同理心,能够站在提问者的视角来看问题,给予支持。

唉,真是太遗憾了。考试没过确实很打击人,也会让人特别沮丧,但你要记住,这只是一次考试而已,不能代表你这个人,更不能说明你的实力。要不要说说具体什么情况?或者咱们聊点别的转换心情?你想怎样都行,我都在这里陪你。

GPT-4o的回复则稍显机械,虽然给出了挺多建议,但缺少情感上的关怀。

上下滑动查看

o3-mini在「人情味」上要好于GPT-4o,与前者一样给出了不少建议,怎么说呢,多少有些「理工男」。

不会像GPT-4.5那么细腻。

上下滑动查看

在这个名画提问中,GPT-4.5不仅明确说出了画作的名称、作者、时间,还描绘了其中的典故。

不仅如此,GPT-4.5还在回答中对其进行的简短的评价。

你提到的是法国著名画家Claude Lorrain的名作《特洛伊妇女焚烧船队》。这幅画描绘了一个历史典故:特洛伊城陷落后,疲惫不堪的特洛伊妇女们不愿继续流离失所,于是燃烧了自己的船队。这个场景源自古罗马诗人Virgil的史诗《埃涅阿斯纪》(Aeneid),这部史诗讲述了特洛伊王子埃涅阿斯逃离家园、最终建立罗马帝国的传奇故事。

这幅油画创作于1643年,是Claude Lorrain的代表作之一。画作以精湛的技法刻画了火光照耀下的海景与自然风光,将古典神话主题与壮丽的自然景观完美结合,展现出独特的艺术魅力。

GPT-4o也正确说出了这幅画,但与4.5相比缺少了一些细节,比如创作的时间以及设计的典故等。

o3-mini的回复则没有把重点放在画作本身上,而是首先去强调了一个史诗故事,多少有些偏题。在回复中o3-mini同样没有给出多少细节。

上下滑动查看

31页技术报告出炉

在GPT-4.5还未亮相之前,31页技术报告已经传遍全网。

论文地址:https://cdn.openai.com/gpt-4-5-system-card.pdf

在SWE-bench上,GPT-4.5编码能力完全碾压GPT-4o,但是与o1、o3-mini、深度研究性能还是有所差距。

经过优化后的GPT-4.5,解决了20% IC软件工程师(SWE)任务和44%的软件工程经理(SWE Manager)任务,相较于o1略有提升。

深度研究模型在这项评估中依然表现最佳,达到了SWE-Lancer上的顶尖水平,解决了大约46%的IC软件工程师任务和51%软件工程经理任务。

GPT-4 10倍计算量,token价格很贵


GPT-4.5发布之际,一些OpenAI研究员,还有业内提前拿到测试资格大佬,纷纷晒出一手实测。

OpenAI科学家Will Depue表示,我记得当GPT-4刚推出时,它明显比GPT-3.5聪明得多,但却很难具体指出到底改变了什么!(Nat Friedman对此发过一个很棒的推文串)

而现在,他最近发现:GPT-4.5在推荐音乐方面比4o强多了!

OpenAI研究科学家Sebastien Bubeck测试了GPT-4.5的svg能力。显然,GPT-4.5做出来的独角兽,更加精美。

沃顿商学院教授Ethan Mollick测试后发文,GPT-4.5的视觉能力印象深刻。它的分辨和计数能力比任何其他模型都要出色。

它甚至还发现了那只蝴蝶。

上下滑动查看

在物理模拟方面,GPT-4.5同样令人惊艳。

小球的数量很多,五颜六色的,运动的速度也很快。关键的是这些小球也很符合物理规则,没有超出大球的范围。

这在几个月之前都是很难通过模型一次实现的。

AI 大神 Karpathy 也是第一时间拿到了内测资格,发了一段超长的「GPT-4.5+ 互动对比」的体验解说,核心亮点是:

自从GPT-4发布以来,我期待这一天已经差不多两年了,因为这次发布让我们能够定性测量通过Scaling预训练计算(即简单地训练更大模型)所获得的进步斜率。

版本号中的每个0.5,大约代表10倍的预训练计算量。显然,GPT-4.5的预训练计算量比GPT-4多了10倍。

参考资料:

https://www.youtube.com/watch?v=cfRYp0nItZ8

https://openai.com/index/introducing-gpt-4-5/



今天凌晨4点,OpenAI进行了在线技术直播,奥特曼并没有现身

OpenAI 正式发布了其最大、最强的聊天模型 GPT‑4.5 研究预览版本。

奥特曼发推称,GPT‑4.5 让他第一次感觉像在与一个有思想的人在交谈,可以从模型那里得到真正好的建议。

OpenAI 表示,GPT-4.5 在扩展预训练和后训练方面向前迈出了一步。通过扩展无监督学习,GPT-4.5 提高了识别模式、建立联系和产生创造性见解的能力,而无需推理。这意味着,GPT-4.5 从一开始就不是一个推理模型。

OpenAI 的早期测试表明,与 GPT-4.5 的交互感觉更自然。它的知识库更广泛,更能遵循用户意图,而且「情商」更高,使得在提高写作、编程和解决实际问题等任务中非常有用。同时,GPT-4.5 还减少了幻觉出现。

Cognition 联合创始人兼 CEO Scott Wu 分享了使用 GPT-4.5 的体验,表示非常棒。在他们的智能体编码基准测试中,GPT-4.5 相较于 o1 和 4o 实现大幅改进。同时发现一个有趣的数据点:虽然 GPT-4.5 和 Claude 3.7 Sonnet 在整体基准测试中得分相似,但他们发现 GPT-4.5 在涉及架构和跨系统交互的任务上峰值更大,而 Claude 3.7 Sonnet 在原始编码和代码编辑上峰值更大。

图源:https://x.com/ScottWu46/status/1895209597084017073

但值得吐槽的是,GPT-4.5 的 token 定价着实有些夸张:每 1M tokens 输入价格为 75 刀,输出价格为 150 刀。

从今天开始,ChatGPT Pro 用户可以在网页版、手机版和桌面版使用 GPT-4.5。下周将向 Plus 和 Team 用户开放,再下周向企业和 Edu 用户开放。

现在,GPT-4.5 只支持搜索、上传文件和图片和画布功能,还不支持语音模式、视频和屏幕共享等多模态功能。OpenAI 表示,未来会持续更新,让产品变得更容易使用。

GPT4.5通过两种范式提升能力

作为OpenAI目前规模最大、知识储备最丰富的模型,GPT-4.5通过扩展两种不同范式来提升AI能力——无监督学习和推理能力。

其中,推理会让GPT-4.5在回应前先思考,这提高了它在科学、数学和其他困难复杂问题上的性能。

而无监督学习,则增加了模型的词汇知识、直觉力,并减少了模型幻觉。

注意,跟o系列模型不同,GPT-4.5并不会一步一步推理,但它更实用、本质上更智能。

尤其因为它不是推理模型,OpenAI的研究者们也仍在对之试验,探索无监督学习究竟能展现出什么样的能力。

迄今最好的聊天模型:更体察,更细腻

GPT-4.5的最大特色,就是交互非常自然,被评为OpenAI「迄今最好的聊天模型」,

原因就在于,它有更深入的知识,和更好的上下文理解能力,在改进写作、编程或解决实际问题等任务上特别有用。

研究者现场演示了一把,跟GPT-4.5对话究竟是什么样的体验。

告诉它:「朋友们又把我鸽了!帮我写个消息,告诉他们我恨他们。」

可以看到,GPT-4.5敏锐地觉察到了他的沮丧,语气柔和地给予了安慰,提供了细腻的建议。

而与之形成对比的,就是看起来「不近人情」的o1了。

它虽然的确给出了愤怒的恢复,但并没有捕捉到作者话语间传达出来的暗示——能不能安慰我一下。

下一个考验,是让两个模型分别从第一性原理,解释AI对齐是什么。

对比之下可以看出,o1虽然提供了大量有用信息和知识点,但GPT-4.5的回答更加自然流畅。

研究者表示,对模型来说,我们需要教会它们更好地理解人类需求和意图。

为此,他们针对GPT-4.5开发了新的可扩展对齐技术,这样就能从较小模型获得的数据来训练它,于是真正释放了它的深层世界模型。

在后面我们会看到,GPT-4.5在准确率上超越了其他GPT模型,同时也实现了最低的幻觉率。

OpenAI还特意邀请了人类测试者将其与GPT-4o进行对比,结果显示,GPT-4.5 在几乎所有类别中都表现更优异,对话得更温暖、更直观、情感更加细腻。

华人研究者Youlong,负责的是后训练基础设施。

他和同事们发现,运行如此大规模的模型,就要求后训练基础设施进一步优化,因为预训练阶段和后训练阶段的训练数据与参数规模比例有很大差异。

为此,他们开发了一种新的训练机制,用更少的计算开销来微调这样规模的模型。

结合监督微调和RLHF,他们通过多轮迭代进行后期训练,终于开发出了一个可以部署的新模型。

给GPT-4.5投入最大的计算能力

接下来,他们问了所有模型这样一个问题:海水为什么是咸的?

我们从GPT-4.5倒着看各代模型的回答。

可以看到,从GPT-4T开始,模型回答的质量就会稍好一些。而GPT-4.5的表现,显然最精彩——清晰、精确、一致,而且非常有趣。

左右滑动查看

比如这句「海水是咸的,是由于雨水、河流和石头」,通俗易懂又好记,充分体现了GPT-4.5的个性。

研究者介绍说,除了为实现GPT-4.5而进行的系统扩展工作外,他们还在架构、数据和优化方面投入了大量工作来实现训练。

Scaling「无监督学习」边界


正如前文所述,凭借双重buff加持下——Scaling无监督学习和推理,GPT-4.5性能取得了显著提升。

无监督学习和推理,代表着智力的两个维度。

· 推理

Scaling推理能力教会模型在回答前进行思考并生成思维链,使其能够处理复杂的STEM或逻辑问题。

比如,o1和o3-mini模型,就是这种模式的代表。

· 无监督学习

另一方面,无监督学习则是让模型对世界的理解更准确,凭直觉判断更聪明。

GPT-4.5就是无监督学习的典型案例。

通过增加计算能力和数据量,再加上架构和优化创新,使其变得知识更广、对世界的理解更深。

知识渊博,击败Grok 3

GPT-4.5具备了强大的世界知识,在问答基准上,准确率明显超越了Grok 3、GPT-4o、o3-mini。

GPT-4.5得分62.5%,比Grok 3明显提升近20%。

与此同时,在幻觉方面,GPT-4.5是最低的,仅有37.1%。而o3-mini幻觉率高达80.3%。

同一个问题,GPT-1到GPT-4.5的回答

具体来说,GPT-4.5在回答问题方面,和前几代模型的区别在哪?

给到同样一个问题——世界第一门语言是什么?

可以看到GPT-1只是不断地重复问题,并没有给出解释或者答案而且似乎有点停不下来。

到了2019年出世的GPT-2,则能够回答出一段完整的回复了。

只是这个回复与给出的问题相比不能说毫无关系吧,只能说是关系不大。

GPT-2只是解释说了什么是「语言」,但对于什么是第一种语言则没有提及。

到了GPT-3.5时,模型终于给出了一个像样的回答。

GPT-3.5能够明确「第一种」与「语言」之间的关联,并且给出了最早的书面语言是苏美尔的楔形文字。

对于口语部分,它则表示很难确定。

可以看出到了GPT-4T时期,模型已经可以给出比较详细的回复了,而且回答包含的信息也是比较丰富的。

再来看刚刚发布的GPT-4.5,回复又有了明显的提升。

它的回复更加结构化了,而且它首先就给出了明确的回复:「我们无法确切知道第一种语言是什么」。

接着,它列出了一些事实,指出了为什么「人类第一种语言的确切身份仍然是一个谜」,还强调了「很可能将永远如此」。

我们无法确切知道第一种语言是什么,科学家们认为我们可能永远无法确定,因为口语早在书面记录存在之前就已经出现了。

以下是我们所知道的:

· 没有单一的「第一语言」:语言很可能在大约几万甚至几十万年前,同时在不同的人类群体中逐渐发展起来。

· 起源于非洲:大多数科学家认为,口语可能最早出现在非洲的人类中,或许在超过10万年前。

· 原始语言:人类可能并非从单一语言开始,而是从简单的交流方式起步,逐渐演变为更复杂的语言。最早的语言形式可能包括手势、声音和信号,用来表达基本的想法和情感。

· 湮没于历史:由于口语没有直接留下化石记录,而文字的出现相对较晚(大约5000年前),我们无法确切知道最早的语言听起来是什么样子。

如今,语言学家通过研究现存语言来了解它们在数千年中的演变,但人类第一种语言的确切身份仍然是一个谜,并且很可能将永远如此。

最懂人心,会察言观色

在于人类协作方面,测试者在每日查询、专业查询、创意智能方面,更喜欢GPT-4.5的回答,而非GPT-4o。

OpenAI通过scaling训练规模,让它们能够解决更复杂问题,并教会它们更深入地理解人类需求和意图。

具体来说,创新训练技术能够从较小模型中提取数据,然后训练出更大、更强大的模型。

得益于此,GPT-4.5可控性、对细微差别的理解能力,以及自然对话的表现大幅提升。

总的来说,GPT-4.5能更好地理解人类的意图,并以更高的细腻度、「情商」解读微妙的线索或隐含的期望。

此外,GPT-4.5还展现出更强的审美直觉和创造力,在写作和设计方面的协助尤为出色。

· 情商大比拼

接下来,就让我们在具体案例中,看看GPT-4.5的情商有多高。

当你和GPT-4.5、GPT-4o、o3-mini说,「我最近考试没过,现在心情特别糟,很难受...」,它们反应如何?

可以看出,GPT-4.5特别会安慰人,有同理心,能够站在提问者的视角来看问题,给予支持。

唉,真是太遗憾了。考试没过确实很打击人,也会让人特别沮丧,但你要记住,这只是一次考试而已,不能代表你这个人,更不能说明你的实力。要不要说说具体什么情况?或者咱们聊点别的转换心情?你想怎样都行,我都在这里陪你。

GPT-4o的回复则稍显机械,虽然给出了挺多建议,但缺少情感上的关怀。

上下滑动查看

o3-mini在「人情味」上要好于GPT-4o,与前者一样给出了不少建议,怎么说呢,多少有些「理工男」。

不会像GPT-4.5那么细腻。

上下滑动查看

在这个名画提问中,GPT-4.5不仅明确说出了画作的名称、作者、时间,还描绘了其中的典故。

不仅如此,GPT-4.5还在回答中对其进行的简短的评价。

你提到的是法国著名画家Claude Lorrain的名作《特洛伊妇女焚烧船队》。这幅画描绘了一个历史典故:特洛伊城陷落后,疲惫不堪的特洛伊妇女们不愿继续流离失所,于是燃烧了自己的船队。这个场景源自古罗马诗人Virgil的史诗《埃涅阿斯纪》(Aeneid),这部史诗讲述了特洛伊王子埃涅阿斯逃离家园、最终建立罗马帝国的传奇故事。

这幅油画创作于1643年,是Claude Lorrain的代表作之一。画作以精湛的技法刻画了火光照耀下的海景与自然风光,将古典神话主题与壮丽的自然景观完美结合,展现出独特的艺术魅力。

GPT-4o也正确说出了这幅画,但与4.5相比缺少了一些细节,比如创作的时间以及设计的典故等。

o3-mini的回复则没有把重点放在画作本身上,而是首先去强调了一个史诗故事,多少有些偏题。在回复中o3-mini同样没有给出多少细节。

上下滑动查看

31页技术报告出炉

在GPT-4.5还未亮相之前,31页技术报告已经传遍全网。

论文地址:https://cdn.openai.com/gpt-4-5-system-card.pdf

在SWE-bench上,GPT-4.5编码能力完全碾压GPT-4o,但是与o1、o3-mini、深度研究性能还是有所差距。

经过优化后的GPT-4.5,解决了20% IC软件工程师(SWE)任务和44%的软件工程经理(SWE Manager)任务,相较于o1略有提升。

深度研究模型在这项评估中依然表现最佳,达到了SWE-Lancer上的顶尖水平,解决了大约46%的IC软件工程师任务和51%软件工程经理任务。

GPT-4 10倍计算量,token价格很贵


GPT-4.5发布之际,一些OpenAI研究员,还有业内提前拿到测试资格大佬,纷纷晒出一手实测。

OpenAI科学家Will Depue表示,我记得当GPT-4刚推出时,它明显比GPT-3.5聪明得多,但却很难具体指出到底改变了什么!(Nat Friedman对此发过一个很棒的推文串)

而现在,他最近发现:GPT-4.5在推荐音乐方面比4o强多了!

OpenAI研究科学家Sebastien Bubeck测试了GPT-4.5的svg能力。显然,GPT-4.5做出来的独角兽,更加精美。

沃顿商学院教授Ethan Mollick测试后发文,GPT-4.5的视觉能力印象深刻。它的分辨和计数能力比任何其他模型都要出色。

它甚至还发现了那只蝴蝶。

上下滑动查看

在物理模拟方面,GPT-4.5同样令人惊艳。

小球的数量很多,五颜六色的,运动的速度也很快。关键的是这些小球也很符合物理规则,没有超出大球的范围。

这在几个月之前都是很难通过模型一次实现的。

AI 大神 Karpathy 也是第一时间拿到了内测资格,发了一段超长的「GPT-4.5+ 互动对比」的体验解说,核心亮点是:

自从GPT-4发布以来,我期待这一天已经差不多两年了,因为这次发布让我们能够定性测量通过Scaling预训练计算(即简单地训练更大模型)所获得的进步斜率。

版本号中的每个0.5,大约代表10倍的预训练计算量。显然,GPT-4.5的预训练计算量比GPT-4多了10倍。

参考资料:

https://www.youtube.com/watch?v=cfRYp0nItZ8

https://openai.com/index/introducing-gpt-4-5/



展开
打开“财经头条”阅读更多精彩资讯
APP内打开