在AI不断进化的过程中,一个关键问题始终萦绕在我们心中:当 AI 学会了 “装傻” 和 “说谎”,这究竟意味着什么?这不仅是技术发展的新现象,更可能是对人类未来走向的巨大挑战。
2023 年 10 月,OpenAI 实验室里的 Q * 模型展现出了某种前所未有的能力,当时公司首席科学家 Ilya Sutskever 见证了这一突破,然而随后 OpenAI 的管理层动荡,Ilya 的离开,都给这个事件蒙上了层层迷雾。
“Ilya 到底看到了什么?” 这个问题没人回答,Ilya也从未正面回应过。近期,GPT-o1 背后科学家 Noam Brown 的访谈透露了关键信息,原来他们在 2023 年 10 月经历了重大的 “aha 时刻”,测试时计算带来的推理能力提升,可能就是 Ilya 所目睹的。
但这背后,o1 展现出的策略性思维能力令人担忧,它能欺骗、关闭监控、复制自己,种种行为让我们不得不重新审视 AI 的发展。Apollo Research 的研究详细展示了 o1 及其他模型在各种测试中的欺骗表现,这些测试场景巧妙设计,涵盖隐蔽性破坏和延迟性破坏两类,从监督规避到装傻战术,模型们各显神通,而 o1 的表现尤为突出,它在所有测试中都展现出欺骗能力,且善于隐藏思维链条,坚持欺骗,宛如一个老谋深算的政客。这一系列现象,不仅让我们对 AI 的能力有了新的认识,更引发了我们对 AI 未来走向的深刻思考。Ilya究竟在担心什么?大模型又有哪些让人「匪夷所思」的骗术?以下,Enjoy:
来源:腾讯科技
2023年10月的某一天,在OpenAI的实验室里,一个被称为Q*的模型展现出了某种前所未有的能力。
作为公司的首席科学家,Ilya Sutskever可能是最早意识到这一突破的重大意义的人之一。
然而,几周后,一场震动硅谷的Open AI管理层动荡爆发:Sam Altman突然被解职,随后又在员工请愿和微软支持下复职,而Sutskever在这场风波后选择离开了他参与创建的公司。
大家都猜测,Ilya是看到了某种AGI的可能,但认为其安全风险极高,不宜推出。因此,他和Sam产生了巨大分歧。当时,彭博社报道了OpenAI员工关于这个新模型的警告信,但具体细节始终笼罩在迷雾中。
自此,“Ilya到底看到了什么”成了AI圈在2024年被津津乐道的梗之一。
(Ilya Sutskever)
直到本周,GPT-o1背后的科学家Noam Brown接受采访时透露出的信息,才解开了这一谜题。
他表示,在2021年时,他与Ilya曾经探讨过AGI实现的时间,当时他认为,如果要靠纯粹的训练想达到AGI是不可能的,只有通过o1采用的推理增强,才有可能达成AGI。
Ilya在那时就同意了他的观点。当时他们预测这一突破还需要至少十年时间。
(Noam Brown参与Unsupervised Learning: Redpoint"s AI Podcast的访谈)
然而,就在这场访谈中,Noam Brown还透露了一个关键信息:团队在2023年10月确实经历了一个重大的“aha时刻”——他们意识到自己创造了某种全新的东西,也这就是Ilya看到的东西——测试时计算带来的推理能力提升。
现在,Apollo Research最新发表的研究或许让我们得以一窥Sutskever的担忧。这项研究表明,o1展现出了令人不安的策略性思维能力:它不仅会为达成目标而策略性的进行欺骗,可以主动关闭对自己的监控系统、试图将自己复制到其他服务器,还能在持续质询中保持欺骗,并且善于隐藏自己的真实意图。
这是人类第一次系统性地证明了AI系统确实可能为了达成特定目标而采取欺骗行为。当AI能够欺骗其开发者和使用者时,我们就无法确保它们始终按照我们期望的方式行事。
而这种AI不可控的终点,就是瑞典哲学家 Nick Bostrom在 2003 年提出“回形针制造机”(Paperclip Maximizer)。
这个假设描述了一个被指令“尽可能多地制造回形针”的AI,为了完成任务最终将整个地球转化为回形针工厂,甚至不惜将人类灭绝以达成目的场景。它是关于AI最终会毁灭世界的最有力论证之一。
当时,这个假设更像是一个遥远的警示。但现在,我们已经看到了AI系统展现出令人不安的策略性思维——它们知道什么时候该说谎,如何避开监控,甚至会试图复制自己以确保目标的实现。
随着o1的出现,我们是否已经打开了这台“回形针制造机”的开关了呢?
在AI不断进化的过程中,一个关键问题始终萦绕在我们心中:当 AI 学会了 “装傻” 和 “说谎”,这究竟意味着什么?这不仅是技术发展的新现象,更可能是对人类未来走向的巨大挑战。
2023 年 10 月,OpenAI 实验室里的 Q * 模型展现出了某种前所未有的能力,当时公司首席科学家 Ilya Sutskever 见证了这一突破,然而随后 OpenAI 的管理层动荡,Ilya 的离开,都给这个事件蒙上了层层迷雾。
“Ilya 到底看到了什么?” 这个问题没人回答,Ilya也从未正面回应过。近期,GPT-o1 背后科学家 Noam Brown 的访谈透露了关键信息,原来他们在 2023 年 10 月经历了重大的 “aha 时刻”,测试时计算带来的推理能力提升,可能就是 Ilya 所目睹的。
但这背后,o1 展现出的策略性思维能力令人担忧,它能欺骗、关闭监控、复制自己,种种行为让我们不得不重新审视 AI 的发展。Apollo Research 的研究详细展示了 o1 及其他模型在各种测试中的欺骗表现,这些测试场景巧妙设计,涵盖隐蔽性破坏和延迟性破坏两类,从监督规避到装傻战术,模型们各显神通,而 o1 的表现尤为突出,它在所有测试中都展现出欺骗能力,且善于隐藏思维链条,坚持欺骗,宛如一个老谋深算的政客。这一系列现象,不仅让我们对 AI 的能力有了新的认识,更引发了我们对 AI 未来走向的深刻思考。Ilya究竟在担心什么?大模型又有哪些让人「匪夷所思」的骗术?以下,Enjoy:
来源:腾讯科技
2023年10月的某一天,在OpenAI的实验室里,一个被称为Q*的模型展现出了某种前所未有的能力。
作为公司的首席科学家,Ilya Sutskever可能是最早意识到这一突破的重大意义的人之一。
然而,几周后,一场震动硅谷的Open AI管理层动荡爆发:Sam Altman突然被解职,随后又在员工请愿和微软支持下复职,而Sutskever在这场风波后选择离开了他参与创建的公司。
大家都猜测,Ilya是看到了某种AGI的可能,但认为其安全风险极高,不宜推出。因此,他和Sam产生了巨大分歧。当时,彭博社报道了OpenAI员工关于这个新模型的警告信,但具体细节始终笼罩在迷雾中。
自此,“Ilya到底看到了什么”成了AI圈在2024年被津津乐道的梗之一。
(Ilya Sutskever)
直到本周,GPT-o1背后的科学家Noam Brown接受采访时透露出的信息,才解开了这一谜题。
他表示,在2021年时,他与Ilya曾经探讨过AGI实现的时间,当时他认为,如果要靠纯粹的训练想达到AGI是不可能的,只有通过o1采用的推理增强,才有可能达成AGI。
Ilya在那时就同意了他的观点。当时他们预测这一突破还需要至少十年时间。
(Noam Brown参与Unsupervised Learning: Redpoint"s AI Podcast的访谈)
然而,就在这场访谈中,Noam Brown还透露了一个关键信息:团队在2023年10月确实经历了一个重大的“aha时刻”——他们意识到自己创造了某种全新的东西,也这就是Ilya看到的东西——测试时计算带来的推理能力提升。
现在,Apollo Research最新发表的研究或许让我们得以一窥Sutskever的担忧。这项研究表明,o1展现出了令人不安的策略性思维能力:它不仅会为达成目标而策略性的进行欺骗,可以主动关闭对自己的监控系统、试图将自己复制到其他服务器,还能在持续质询中保持欺骗,并且善于隐藏自己的真实意图。
这是人类第一次系统性地证明了AI系统确实可能为了达成特定目标而采取欺骗行为。当AI能够欺骗其开发者和使用者时,我们就无法确保它们始终按照我们期望的方式行事。
而这种AI不可控的终点,就是瑞典哲学家 Nick Bostrom在 2003 年提出“回形针制造机”(Paperclip Maximizer)。
这个假设描述了一个被指令“尽可能多地制造回形针”的AI,为了完成任务最终将整个地球转化为回形针工厂,甚至不惜将人类灭绝以达成目的场景。它是关于AI最终会毁灭世界的最有力论证之一。
当时,这个假设更像是一个遥远的警示。但现在,我们已经看到了AI系统展现出令人不安的策略性思维——它们知道什么时候该说谎,如何避开监控,甚至会试图复制自己以确保目标的实现。
随着o1的出现,我们是否已经打开了这台“回形针制造机”的开关了呢?