史上最强Grok 3发布:马斯克,成了!

笔记侠

3天前

xAI谈到,Grok3由Colossus超级计算机训练完成,这台计算机是在短短八个月内建成的,搭载了10万颗英伟达H100GPU,提供了超过2亿GPU小时的计算资源——是Grok2的10倍。


内容来源:本文内容整理自网络公开资料。
责编| 柒  排版| 拾零
第 8836篇深度好文:3626字 | 9分钟阅读

创新英雄之旅专题

一、Grok 3,地表最强AI?

就在今天,埃隆·马斯克扔出“大招”,正式发布新一代聊天机器人Grok 3,与OpenAI o1、DeepSeek-V3/R1等模型一决高下。

在此之前,马斯克称其为“地球上最聪明的人工智能”。

发布会开场时,马斯克解释了Grok这一名字的来历:Grok这个词来自罗伯特·海因莱因的小说《异乡异客》(Stranger in a Strange Land)。这是一个火星词,意思是充分而深刻地理解某事。随后,xAI在发布会上简单粗暴地摆起了数字。

随后,xAI在发布会上简单粗暴地摆起了数字。

图 | Chatbot Arena成绩(来源:xAI)

Grok 3和Grok 3 mini在数学、科学和编程基准测试上超越了所有主流模型,包括GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3和Gemini-2 Pro等。 

图 | Grok 3的数学、科学和编程基准测试成绩(来源:xAI)

同时,具备推理能力的Grok-3 Reasoning Beta和Grok-3 mini Reasoning则是超越了类似的推理模型,包括DeepSeek-R1和OpenAI的o3 mini等。

图 | Grok 3推理模型的数学、科学和编程基准测试成绩(来源:xAI)  

xAI还现场演示了Grok 3的推理+编程能力,其中一个问题是“生成3D动画代码,演示从地球发射、着陆火星,然后在下一个发射窗口返回地球的过程”。

经过近两分钟的思考,Grok 3生成了可以直接跑起来的python代码,3D动画可以运行,但是否正确还有待验证。

图 | Grok 3生成的代码可以直接运行(来源:xAI)
Grok 3的最后一个新功能是代理/智能体(Agent)。发布会演示的是新产品DeepSearch,基于Grok 3的搜索引擎。
它不仅可以搜索网页,查找现有资料,还可以“推测用户的真正意图”并加以思考,在经过交叉对比不同信源后,确保“能够返回正确的信息”。
在演示中,它还能基于搜索资料给出一些推测性的结论。

图 | DeepSearch功能演示(来源:xAI)
发布会中,xAI谈到,Grok 3由Colossus超级计算机训练完成,这台计算机是在短短八个月内建成的,搭载了10万颗英伟达H100 GPU,提供了超过2亿GPU小时的计算资源——是Grok 2的10倍。 

图 | Colossus设施(来源:xAI)
据介绍,xAI最开始搭建这个10万GPU集群用了122天,后续拓展到20万集群仅用了92天。
马斯克表示,这一显著的算力提升让Grok 3能够更高效地处理庞大数据集,缩短训练时间,并提升AI模型的准确性。
据介绍,在训练方法上,xAI采取了一些新的策略来优化Grok 3的能力,包括合成数据集、自我纠错机制和强化学习。
Grok 3的推出标志着xAI在AI竞赛中的又一次重大尝试。凭借强大的计算能力、优化的训练方法以及对逻辑推理的改进,马斯克寄希望于它能在AI市场上占据一席之地。

图 | Grok 3 在Arena排行榜中拿到了1402的高分(来源:lmarena.ai)
不过,在这场AI诸神之战中,这并不是一个容易实现的目标。
、6个月完成10倍升级
Grok 3背后的第一性原理

从特斯拉到Space X,再到xAI,马斯克在不断颠覆这个世界。
而这背后,离不开他极力推崇的决策框架:第一性原理。

马斯克曾说:“运用第一性原理而不是比较思维,思考问题是非常重要的。我们在生活中总是倾向于比较,别人已经做过或者正在做的事情,我们也都去做,这样发展的结果只能产生细小的迭代发展。”

举个例子,特斯拉研制电动汽车期间,曾遇到一个难题:电池成本居高不下。当时储能电池的市场价格是每千瓦时600美元,这个市场价格很稳定,短期内不会有太大的变动。

但是马斯克从第一性原理角度进行思考:电池组到底是由什么材料组成的?这些电池原料的市场价格是多少?如果我们购买这些原材料然后组合成电池,需要多少钱?这个答案是,每千瓦时只需要80美元。

从最本质出发,研究电池都是由什么材料组成,再推算这些原材料加在一起的价格,从而得到电池的最低价格,通过这样的思维方式,马斯克让电动车的商业化成为可能。

多数人考虑问题的出发点是这件事情的现有情况是既定事实,我无法改变,但是马斯克的想法是,如果这件事在物理层面行得通,那么我也能做成。

再举个例子,马斯克在Space X成立之初,面临本难题。因为美国国家航空航天局向波音公司采购用于发射卫星或者宇宙飞船的大型运载火箭,单次发射成本高达16亿美元。
因为“运载火箭只能进行一次性使用”,这在传统的火箭运载技术中基本是“行业共识”,而这大大降低了美国国家航空航天局向外太空进行探索的速度与效率。
要想实现“到2050年将100万人送往火星工作和生活”的伟大理想,埃隆·马斯克又是如何解决这一重大难题的呢?
第一步:“挖”思维盲区
“运载火箭只能一次性使用”这一传统火箭运载技术中的“行业共识”被马斯克从思维盲区中揪出来了。
在普通人看来,这种集体共识、信念与假设,就是隐形存在的教条,而马斯克在心里反复追问:“这个共识成立吗?总是成立吗?有没有例外?能打破吗?除非……”用层层追问的好奇心与逻辑思维抓住了火箭升空成本问题的本质,他说:
“只能使用一次的消耗性运载火箭,看起来就像是航空公司在每次完成飞行时丢掉他们的客机,而可重复使用的火箭则可以节省巨额成本。”
第二步:“破”思维边界
找到火箭升空成本问题的本质后,SpaceX经历多年艰苦研发与巨资投入,在一次又一次推迟发射与试飞失败,并面临现金流断裂的情况下,终于在2018年2月实现了可重复利用的猎鹰重型火箭的成功试飞,创造了航天领域的奇迹。
猎鹰重型火箭成功试飞,让火箭的单次发射成本从16亿美元降到了9000万美元,只有传统一次性运载火箭成本的5%。这为马斯克移民火星的伟大理想助力向前迈进了一大步。
面对移民火星火箭发射成本居高不下的问题,马斯克深挖通过第一性原理找到“成本”背后真正的阻碍问题,破除了“一次性使用”的心智界限。

而在Grok 3的训练上,马斯克和xAI团队也是靠着第一性原理,从最基本的假设出发,快速试错,才能在6个月的事件内,实现计算能力的10倍增长。
、DeepSeek和Grok 3的区别

xAIGrok 3和深度求索(DeepSeek)的出发点就不太一样。

xAI的目标是加速人类的科学发现,让Grok 3成为一个“宇宙通识者”,能帮人类解答从物理学到哲学的各种问题。

深度求索更多是冲着技术性能和成本效率去的,特别在编程、数学推理这类具体任务上表现得很抢眼。

1.训练目标和风格

GrokGrok 3的训练数据是个“大杂烩”,涵盖了广泛的知识领域,目的是让Grok 3尽可能全面、灵活,能应对各种奇怪的问题。Grok 3的训练过程可能更注重语言的流畅性和对话的自然感,而不是单纯追求某个领域的极致性能。

DeepSeek:DeepSeek的训练目标更聚焦,尤其是V3用了混合专家模型(MoE),这是一种聪明的方法,能让模型在处理具体任务时只激活一部分参数,节省计算资源。R1则进一步强化了推理能力,比如解决复杂的数学或代码问题。DeepSeek的训练明显更偏向技术优化,追求高效率和低成本。

2.数据和方法

Grok:Grok 3的数据来源很广,可能包括科学文献、公开文本,甚至一些对话数据,目的是让Grok 3更贴近人类的表达方式。

DeepSeek:DeepSeek V3号称用了14.8万亿个token(文本片段)训练,涵盖多语言,特别是数学和编程相关的数据。DeepSeek还用了FP8低精度计算和多token预测这样的创新,减少内存占用,加快训练速度。R1甚至直接用强化学习(RL)从V3基础上提炼推理能力,这种“蒸馏”方法挺有意思。

3.资源和成本

Grok:Grok 3的训练可能更依赖高端硬件,比如NVIDIA的最新GPU,成本比DeepSeek多。

DeepSeek:他们厉害的地方在于用相对“弱势”的硬件(NVIDIA H800,比H100差一档)训练出了顶级模型。V3 reportedly 只花了558万美元,靠的是算法优化和自研框架,而不是堆砌昂贵的硬件。

4.结果上的差异

Grok:更像个“聊天大师”,适合探讨开放性问题,提供有趣的思路。如果问Grok 3宇宙的意义,他可能会给你一个既深刻又带点调侃的回答。

DeepSeek:更像“技术专家”,如果你扔给它一道复杂的数学题或者一段代码调试任务,它可能会直接给出精确解法,效率很高。

*文章为作者独立观点,不代表笔记侠立场。
参考资料:

1.《Grok 3来了!马斯克宣称“地球上最聪明的AI”,20万张GPU能否颠覆AI格局?》,DeepTech深科技;

2.《马斯克:第一性原理,是最好的思考方式》,笔记侠。

图片

与其焦虑,不如投资未来!美国 AI科技巨头汇聚,提供前沿洞察。笔记侠2025.5.11赴美研学~


分享、点赞、在看,3连3连!图片

xAI谈到,Grok3由Colossus超级计算机训练完成,这台计算机是在短短八个月内建成的,搭载了10万颗英伟达H100GPU,提供了超过2亿GPU小时的计算资源——是Grok2的10倍。


内容来源:本文内容整理自网络公开资料。
责编| 柒  排版| 拾零
第 8836篇深度好文:3626字 | 9分钟阅读

创新英雄之旅专题

一、Grok 3,地表最强AI?

就在今天,埃隆·马斯克扔出“大招”,正式发布新一代聊天机器人Grok 3,与OpenAI o1、DeepSeek-V3/R1等模型一决高下。

在此之前,马斯克称其为“地球上最聪明的人工智能”。

发布会开场时,马斯克解释了Grok这一名字的来历:Grok这个词来自罗伯特·海因莱因的小说《异乡异客》(Stranger in a Strange Land)。这是一个火星词,意思是充分而深刻地理解某事。随后,xAI在发布会上简单粗暴地摆起了数字。

随后,xAI在发布会上简单粗暴地摆起了数字。

图 | Chatbot Arena成绩(来源:xAI)

Grok 3和Grok 3 mini在数学、科学和编程基准测试上超越了所有主流模型,包括GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3和Gemini-2 Pro等。 

图 | Grok 3的数学、科学和编程基准测试成绩(来源:xAI)

同时,具备推理能力的Grok-3 Reasoning Beta和Grok-3 mini Reasoning则是超越了类似的推理模型,包括DeepSeek-R1和OpenAI的o3 mini等。

图 | Grok 3推理模型的数学、科学和编程基准测试成绩(来源:xAI)  

xAI还现场演示了Grok 3的推理+编程能力,其中一个问题是“生成3D动画代码,演示从地球发射、着陆火星,然后在下一个发射窗口返回地球的过程”。

经过近两分钟的思考,Grok 3生成了可以直接跑起来的python代码,3D动画可以运行,但是否正确还有待验证。

图 | Grok 3生成的代码可以直接运行(来源:xAI)
Grok 3的最后一个新功能是代理/智能体(Agent)。发布会演示的是新产品DeepSearch,基于Grok 3的搜索引擎。
它不仅可以搜索网页,查找现有资料,还可以“推测用户的真正意图”并加以思考,在经过交叉对比不同信源后,确保“能够返回正确的信息”。
在演示中,它还能基于搜索资料给出一些推测性的结论。

图 | DeepSearch功能演示(来源:xAI)
发布会中,xAI谈到,Grok 3由Colossus超级计算机训练完成,这台计算机是在短短八个月内建成的,搭载了10万颗英伟达H100 GPU,提供了超过2亿GPU小时的计算资源——是Grok 2的10倍。 

图 | Colossus设施(来源:xAI)
据介绍,xAI最开始搭建这个10万GPU集群用了122天,后续拓展到20万集群仅用了92天。
马斯克表示,这一显著的算力提升让Grok 3能够更高效地处理庞大数据集,缩短训练时间,并提升AI模型的准确性。
据介绍,在训练方法上,xAI采取了一些新的策略来优化Grok 3的能力,包括合成数据集、自我纠错机制和强化学习。
Grok 3的推出标志着xAI在AI竞赛中的又一次重大尝试。凭借强大的计算能力、优化的训练方法以及对逻辑推理的改进,马斯克寄希望于它能在AI市场上占据一席之地。

图 | Grok 3 在Arena排行榜中拿到了1402的高分(来源:lmarena.ai)
不过,在这场AI诸神之战中,这并不是一个容易实现的目标。
、6个月完成10倍升级
Grok 3背后的第一性原理

从特斯拉到Space X,再到xAI,马斯克在不断颠覆这个世界。
而这背后,离不开他极力推崇的决策框架:第一性原理。

马斯克曾说:“运用第一性原理而不是比较思维,思考问题是非常重要的。我们在生活中总是倾向于比较,别人已经做过或者正在做的事情,我们也都去做,这样发展的结果只能产生细小的迭代发展。”

举个例子,特斯拉研制电动汽车期间,曾遇到一个难题:电池成本居高不下。当时储能电池的市场价格是每千瓦时600美元,这个市场价格很稳定,短期内不会有太大的变动。

但是马斯克从第一性原理角度进行思考:电池组到底是由什么材料组成的?这些电池原料的市场价格是多少?如果我们购买这些原材料然后组合成电池,需要多少钱?这个答案是,每千瓦时只需要80美元。

从最本质出发,研究电池都是由什么材料组成,再推算这些原材料加在一起的价格,从而得到电池的最低价格,通过这样的思维方式,马斯克让电动车的商业化成为可能。

多数人考虑问题的出发点是这件事情的现有情况是既定事实,我无法改变,但是马斯克的想法是,如果这件事在物理层面行得通,那么我也能做成。

再举个例子,马斯克在Space X成立之初,面临本难题。因为美国国家航空航天局向波音公司采购用于发射卫星或者宇宙飞船的大型运载火箭,单次发射成本高达16亿美元。
因为“运载火箭只能进行一次性使用”,这在传统的火箭运载技术中基本是“行业共识”,而这大大降低了美国国家航空航天局向外太空进行探索的速度与效率。
要想实现“到2050年将100万人送往火星工作和生活”的伟大理想,埃隆·马斯克又是如何解决这一重大难题的呢?
第一步:“挖”思维盲区
“运载火箭只能一次性使用”这一传统火箭运载技术中的“行业共识”被马斯克从思维盲区中揪出来了。
在普通人看来,这种集体共识、信念与假设,就是隐形存在的教条,而马斯克在心里反复追问:“这个共识成立吗?总是成立吗?有没有例外?能打破吗?除非……”用层层追问的好奇心与逻辑思维抓住了火箭升空成本问题的本质,他说:
“只能使用一次的消耗性运载火箭,看起来就像是航空公司在每次完成飞行时丢掉他们的客机,而可重复使用的火箭则可以节省巨额成本。”
第二步:“破”思维边界
找到火箭升空成本问题的本质后,SpaceX经历多年艰苦研发与巨资投入,在一次又一次推迟发射与试飞失败,并面临现金流断裂的情况下,终于在2018年2月实现了可重复利用的猎鹰重型火箭的成功试飞,创造了航天领域的奇迹。
猎鹰重型火箭成功试飞,让火箭的单次发射成本从16亿美元降到了9000万美元,只有传统一次性运载火箭成本的5%。这为马斯克移民火星的伟大理想助力向前迈进了一大步。
面对移民火星火箭发射成本居高不下的问题,马斯克深挖通过第一性原理找到“成本”背后真正的阻碍问题,破除了“一次性使用”的心智界限。

而在Grok 3的训练上,马斯克和xAI团队也是靠着第一性原理,从最基本的假设出发,快速试错,才能在6个月的事件内,实现计算能力的10倍增长。
、DeepSeek和Grok 3的区别

xAIGrok 3和深度求索(DeepSeek)的出发点就不太一样。

xAI的目标是加速人类的科学发现,让Grok 3成为一个“宇宙通识者”,能帮人类解答从物理学到哲学的各种问题。

深度求索更多是冲着技术性能和成本效率去的,特别在编程、数学推理这类具体任务上表现得很抢眼。

1.训练目标和风格

GrokGrok 3的训练数据是个“大杂烩”,涵盖了广泛的知识领域,目的是让Grok 3尽可能全面、灵活,能应对各种奇怪的问题。Grok 3的训练过程可能更注重语言的流畅性和对话的自然感,而不是单纯追求某个领域的极致性能。

DeepSeek:DeepSeek的训练目标更聚焦,尤其是V3用了混合专家模型(MoE),这是一种聪明的方法,能让模型在处理具体任务时只激活一部分参数,节省计算资源。R1则进一步强化了推理能力,比如解决复杂的数学或代码问题。DeepSeek的训练明显更偏向技术优化,追求高效率和低成本。

2.数据和方法

Grok:Grok 3的数据来源很广,可能包括科学文献、公开文本,甚至一些对话数据,目的是让Grok 3更贴近人类的表达方式。

DeepSeek:DeepSeek V3号称用了14.8万亿个token(文本片段)训练,涵盖多语言,特别是数学和编程相关的数据。DeepSeek还用了FP8低精度计算和多token预测这样的创新,减少内存占用,加快训练速度。R1甚至直接用强化学习(RL)从V3基础上提炼推理能力,这种“蒸馏”方法挺有意思。

3.资源和成本

Grok:Grok 3的训练可能更依赖高端硬件,比如NVIDIA的最新GPU,成本比DeepSeek多。

DeepSeek:他们厉害的地方在于用相对“弱势”的硬件(NVIDIA H800,比H100差一档)训练出了顶级模型。V3 reportedly 只花了558万美元,靠的是算法优化和自研框架,而不是堆砌昂贵的硬件。

4.结果上的差异

Grok:更像个“聊天大师”,适合探讨开放性问题,提供有趣的思路。如果问Grok 3宇宙的意义,他可能会给你一个既深刻又带点调侃的回答。

DeepSeek:更像“技术专家”,如果你扔给它一道复杂的数学题或者一段代码调试任务,它可能会直接给出精确解法,效率很高。

*文章为作者独立观点,不代表笔记侠立场。
参考资料:

1.《Grok 3来了!马斯克宣称“地球上最聪明的AI”,20万张GPU能否颠覆AI格局?》,DeepTech深科技;

2.《马斯克:第一性原理,是最好的思考方式》,笔记侠。

图片

与其焦虑,不如投资未来!美国 AI科技巨头汇聚,提供前沿洞察。笔记侠2025.5.11赴美研学~


分享、点赞、在看,3连3连!图片

展开
打开“财经头条”阅读更多精彩资讯
APP内打开