创新英雄之旅专题
就在今天,埃隆·马斯克扔出“大招”,正式发布新一代聊天机器人Grok 3,与OpenAI o1、DeepSeek-V3/R1等模型一决高下。
在此之前,马斯克称其为“地球上最聪明的人工智能”。
发布会开场时,马斯克解释了Grok这一名字的来历:Grok这个词来自罗伯特·海因莱因的小说《异乡异客》(Stranger in a Strange Land)。这是一个火星词,意思是充分而深刻地理解某事。随后,xAI在发布会上简单粗暴地摆起了数字。
随后,xAI在发布会上简单粗暴地摆起了数字。
图 | Chatbot Arena成绩(来源:xAI)
Grok 3和Grok 3 mini在数学、科学和编程基准测试上超越了所有主流模型,包括GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3和Gemini-2 Pro等。
图 | Grok 3的数学、科学和编程基准测试成绩(来源:xAI)
同时,具备推理能力的Grok-3 Reasoning Beta和Grok-3 mini Reasoning则是超越了类似的推理模型,包括DeepSeek-R1和OpenAI的o3 mini等。
图 | Grok 3推理模型的数学、科学和编程基准测试成绩(来源:xAI)
xAI还现场演示了Grok 3的推理+编程能力,其中一个问题是“生成3D动画代码,演示从地球发射、着陆火星,然后在下一个发射窗口返回地球的过程”。
经过近两分钟的思考,Grok 3生成了可以直接跑起来的python代码,3D动画可以运行,但是否正确还有待验证。
马斯克曾说:“运用第一性原理而不是比较思维,思考问题是非常重要的。我们在生活中总是倾向于比较,别人已经做过或者正在做的事情,我们也都去做,这样发展的结果只能产生细小的迭代发展。”
举个例子,特斯拉研制电动汽车期间,曾遇到一个难题:电池成本居高不下。当时储能电池的市场价格是每千瓦时600美元,这个市场价格很稳定,短期内不会有太大的变动。
但是马斯克从第一性原理角度进行思考:电池组到底是由什么材料组成的?这些电池原料的市场价格是多少?如果我们购买这些原材料然后组合成电池,需要多少钱?这个答案是,每千瓦时只需要80美元。
从最本质出发,研究电池都是由什么材料组成,再推算这些原材料加在一起的价格,从而得到电池的最低价格,通过这样的思维方式,马斯克让电动车的商业化成为可能。
多数人考虑问题的出发点是这件事情的现有情况是既定事实,我无法改变,但是马斯克的想法是,如果这件事在物理层面行得通,那么我也能做成。
xAI(Grok 3)和深度求索(DeepSeek)的出发点就不太一样。
xAI的目标是加速人类的科学发现,让Grok 3成为一个“宇宙通识者”,能帮人类解答从物理学到哲学的各种问题。
而深度求索更多是冲着技术性能和成本效率去的,特别在编程、数学推理这类具体任务上表现得很抢眼。
1.训练目标和风格
Grok:Grok 3的训练数据是个“大杂烩”,涵盖了广泛的知识领域,目的是让Grok 3尽可能全面、灵活,能应对各种奇怪的问题。Grok 3的训练过程可能更注重语言的流畅性和对话的自然感,而不是单纯追求某个领域的极致性能。
DeepSeek:DeepSeek的训练目标更聚焦,尤其是V3用了混合专家模型(MoE),这是一种聪明的方法,能让模型在处理具体任务时只激活一部分参数,节省计算资源。R1则进一步强化了推理能力,比如解决复杂的数学或代码问题。DeepSeek的训练明显更偏向技术优化,追求高效率和低成本。
2.数据和方法
Grok:Grok 3的数据来源很广,可能包括科学文献、公开文本,甚至一些对话数据,目的是让Grok 3更贴近人类的表达方式。
DeepSeek:DeepSeek V3号称用了14.8万亿个token(文本片段)训练,涵盖多语言,特别是数学和编程相关的数据。DeepSeek还用了FP8低精度计算和多token预测这样的创新,减少内存占用,加快训练速度。R1甚至直接用强化学习(RL)从V3基础上提炼推理能力,这种“蒸馏”方法挺有意思。
3.资源和成本
Grok:Grok 3的训练可能更依赖高端硬件,比如NVIDIA的最新GPU,成本比DeepSeek多。
DeepSeek:他们厉害的地方在于用相对“弱势”的硬件(NVIDIA H800,比H100差一档)训练出了顶级模型。V3 reportedly 只花了558万美元,靠的是算法优化和自研框架,而不是堆砌昂贵的硬件。
4.结果上的差异
Grok:更像个“聊天大师”,适合探讨开放性问题,提供有趣的思路。如果问Grok 3宇宙的意义,他可能会给你一个既深刻又带点调侃的回答。
DeepSeek:更像“技术专家”,如果你扔给它一道复杂的数学题或者一段代码调试任务,它可能会直接给出精确解法,效率很高。
1.《Grok 3来了!马斯克宣称“地球上最聪明的AI”,20万张GPU能否颠覆AI格局?》,DeepTech深科技;
2.《马斯克:第一性原理,是最好的思考方式》,笔记侠。
与其焦虑,不如投资未来!美国 AI科技巨头汇聚,提供前沿洞察。与笔记侠2025.5.11赴美研学~
创新英雄之旅专题
就在今天,埃隆·马斯克扔出“大招”,正式发布新一代聊天机器人Grok 3,与OpenAI o1、DeepSeek-V3/R1等模型一决高下。
在此之前,马斯克称其为“地球上最聪明的人工智能”。
发布会开场时,马斯克解释了Grok这一名字的来历:Grok这个词来自罗伯特·海因莱因的小说《异乡异客》(Stranger in a Strange Land)。这是一个火星词,意思是充分而深刻地理解某事。随后,xAI在发布会上简单粗暴地摆起了数字。
随后,xAI在发布会上简单粗暴地摆起了数字。
图 | Chatbot Arena成绩(来源:xAI)
Grok 3和Grok 3 mini在数学、科学和编程基准测试上超越了所有主流模型,包括GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3和Gemini-2 Pro等。
图 | Grok 3的数学、科学和编程基准测试成绩(来源:xAI)
同时,具备推理能力的Grok-3 Reasoning Beta和Grok-3 mini Reasoning则是超越了类似的推理模型,包括DeepSeek-R1和OpenAI的o3 mini等。
图 | Grok 3推理模型的数学、科学和编程基准测试成绩(来源:xAI)
xAI还现场演示了Grok 3的推理+编程能力,其中一个问题是“生成3D动画代码,演示从地球发射、着陆火星,然后在下一个发射窗口返回地球的过程”。
经过近两分钟的思考,Grok 3生成了可以直接跑起来的python代码,3D动画可以运行,但是否正确还有待验证。
马斯克曾说:“运用第一性原理而不是比较思维,思考问题是非常重要的。我们在生活中总是倾向于比较,别人已经做过或者正在做的事情,我们也都去做,这样发展的结果只能产生细小的迭代发展。”
举个例子,特斯拉研制电动汽车期间,曾遇到一个难题:电池成本居高不下。当时储能电池的市场价格是每千瓦时600美元,这个市场价格很稳定,短期内不会有太大的变动。
但是马斯克从第一性原理角度进行思考:电池组到底是由什么材料组成的?这些电池原料的市场价格是多少?如果我们购买这些原材料然后组合成电池,需要多少钱?这个答案是,每千瓦时只需要80美元。
从最本质出发,研究电池都是由什么材料组成,再推算这些原材料加在一起的价格,从而得到电池的最低价格,通过这样的思维方式,马斯克让电动车的商业化成为可能。
多数人考虑问题的出发点是这件事情的现有情况是既定事实,我无法改变,但是马斯克的想法是,如果这件事在物理层面行得通,那么我也能做成。
xAI(Grok 3)和深度求索(DeepSeek)的出发点就不太一样。
xAI的目标是加速人类的科学发现,让Grok 3成为一个“宇宙通识者”,能帮人类解答从物理学到哲学的各种问题。
而深度求索更多是冲着技术性能和成本效率去的,特别在编程、数学推理这类具体任务上表现得很抢眼。
1.训练目标和风格
Grok:Grok 3的训练数据是个“大杂烩”,涵盖了广泛的知识领域,目的是让Grok 3尽可能全面、灵活,能应对各种奇怪的问题。Grok 3的训练过程可能更注重语言的流畅性和对话的自然感,而不是单纯追求某个领域的极致性能。
DeepSeek:DeepSeek的训练目标更聚焦,尤其是V3用了混合专家模型(MoE),这是一种聪明的方法,能让模型在处理具体任务时只激活一部分参数,节省计算资源。R1则进一步强化了推理能力,比如解决复杂的数学或代码问题。DeepSeek的训练明显更偏向技术优化,追求高效率和低成本。
2.数据和方法
Grok:Grok 3的数据来源很广,可能包括科学文献、公开文本,甚至一些对话数据,目的是让Grok 3更贴近人类的表达方式。
DeepSeek:DeepSeek V3号称用了14.8万亿个token(文本片段)训练,涵盖多语言,特别是数学和编程相关的数据。DeepSeek还用了FP8低精度计算和多token预测这样的创新,减少内存占用,加快训练速度。R1甚至直接用强化学习(RL)从V3基础上提炼推理能力,这种“蒸馏”方法挺有意思。
3.资源和成本
Grok:Grok 3的训练可能更依赖高端硬件,比如NVIDIA的最新GPU,成本比DeepSeek多。
DeepSeek:他们厉害的地方在于用相对“弱势”的硬件(NVIDIA H800,比H100差一档)训练出了顶级模型。V3 reportedly 只花了558万美元,靠的是算法优化和自研框架,而不是堆砌昂贵的硬件。
4.结果上的差异
Grok:更像个“聊天大师”,适合探讨开放性问题,提供有趣的思路。如果问Grok 3宇宙的意义,他可能会给你一个既深刻又带点调侃的回答。
DeepSeek:更像“技术专家”,如果你扔给它一道复杂的数学题或者一段代码调试任务,它可能会直接给出精确解法,效率很高。
1.《Grok 3来了!马斯克宣称“地球上最聪明的AI”,20万张GPU能否颠覆AI格局?》,DeepTech深科技;
2.《马斯克:第一性原理,是最好的思考方式》,笔记侠。
与其焦虑,不如投资未来!美国 AI科技巨头汇聚,提供前沿洞察。与笔记侠2025.5.11赴美研学~