DeepSeek为什么火了?

格上财富

6小时前

美苏争霸是历史书上的词,我们这代人基本没有什么切身体验,不过中美的竞争越来越白热化,会不会重演美苏争霸的历史老路。...假设现在我们了解DeepSeek,以此为例,我们就问:“我想了解DeepSeek,我需要问什么问题。

者:云墨

来源:云云云的书房(ID:Yun_Study_Room)

DeepSeek

首先,DeepSeek为什么热度这么高?

核心是两点:

a) 是源自中国的创新。

b) 是对美国头部AI公司来了一次釜底抽薪。

这两个一起才产生了这么大的效果,我们展开说说。

大家都知道美国是不卖给中国高端芯片的,这样下来,中国公司手中的AI芯片和美国公司相比,是有很大的代差。而AI模型的效果和模型规模成一定关系,就像汽车的发动机一样,越先进的发动机马力越足,模型也是如此,美国公司有更为先进的芯片,自然就可以往大了做模型,效果就越好。

那中国AI公司拿不到高性能的芯片,怎么办?

答案是:研究如何把手上的芯片效能发挥到最大。这是DeepSeek在手上芯片受限下做出惊艳全球大模型的最底层逻辑。

我们以汽车发动机为例,一般汽车是1.5L、2L甚至更大的发动机,由于美国制裁,现在相当于中国公司最大只能拿到0.3L的发动机。

美国那边没有发动机性能的限制,所以发动机往大了做,汽车也往豪华了设计。而DeepSeek却朝着另一个方向,由于只有0.3L的发动机,那就尝试做出了一个适配0.3升发动机的车,以便发动机效能发挥到极致,比如传动系统、底盘、车重、轮胎都围绕着这个发动机进行设计。

于是我们就看到了今天看到的结果,虽然DeepSeek只有H800芯片(相比美国公司拥有的芯片,H800是一款性能相对较弱的芯片),但是DeepSeek团队充分挖掘这颗芯片的性能,做出来一个跑在H800上的模型。

不过,大家可能有第二个疑问,国内企业在芯片上都受限,包括很多互联网大厂,为什么是DeepSeek做出来这个模型呢?

这得从DeepSeek背景说起,DeepSeek是国内量化基金幻方成立的AI模型公司,量化交易需要充分挖掘软件和底层硬件的性能,比如有些量化交易要求任务在微秒,甚至纳秒内完成,所以量化团队对底层硬件和上层软件都非常熟悉,团队过去做量化的时候就是使用英伟达的芯片,所以对芯片的理解也是极为深刻的。

也正是因为这样的团队背景,具备深度挖掘底层芯片的能力,所以虽然有一众互联网大厂,反而是DeepSeek团队做出来匹敌GPT-4o的模型。甚至可以这么说,DeepSeek最新的模型R1就是围绕H800定制的,这才是底层逻辑。

当然,对硬件和软件的深度理解不代表就一定能做出这样的模型,还需要拼搏努力和创新,所以这一点我们需要为DeepSeek点赞。

也正是沿着这个方向的深度挖掘,导致DeepSeek模型的训练和推理成本都更低,DeepSeek价格甚至是GPT的十分之一都不到,下图红框是DeepSeek的价格,蓝框是不同GPT模型的价格:

本来美国企业是凭着大资金、高算力芯片高枕无忧,以为中国芯片受限的情况下,追赶OpenAI是“遥不可及”的。却没想到中国被禁止获得高端芯片,朝着另一个方向去探索,不仅搞出来性能上不输GPT的模型,而且成本也更低。

这不仅让美国AI公司破防,而且同时破防了两次,甚至让美国AI公司产生了“大资金、高算力模式”到底对不对的自我怀疑,这才是DeepSeek火出圈的核心原因,DeepSeek也算是美国制裁的箭变成射中美国自己的回旋镖。

中美竞争和美苏争霸

美苏争霸是历史书上的词,我们这代人基本没有什么切身体验,不过中美的竞争越来越白热化,会不会重演美苏争霸的历史老路?

大概率中美的AI竞争和美苏冷战时候会不同,美苏的科技竞争是传统硬科技,是一个物理上相互“隔离的竞争”,只要研发的产品“物理”上不流入到对方手里,对方很难跟进,加上信息传播非常慢,甚至有些技术一方都投入使用很久了,另一方还不知道它的存在。

而今天的信息科技竞争,是在一张全球互联互通的大网上进行的,虽然像OpenAI把中国IP都禁止掉了,但是很轻松就换一个IP登录上去看到,中国有什么,美国可以看到,美国有什么,中国也可以看到。

所以今天,中美的任何进步都在对方的眼皮子底下,同时,当年的美苏争霸,还是两个经济体制的竞争,即计划经济和市场经济,前者效率上肯定比不过后者,今天的中国也是市场经济,从而没有了计划体制的约束。

我对中国的科技有足够的信心,很大的一个原因是中国的人才积累足够多,前些天看到一个评论很有意思,说这场AI的竞争是:在美国的中国人和在中国的中国人之间的竞争。

的确,美国科技领域华裔占比非常高,包括OpenAI公司里面也有很多华裔,中国本土也有大量的人才积累,既包括中国大量的高校培养出来的工程师,还包括BAT等互联网公司培养的实战人才。

启示

DeepSeek对谁利空、对谁利好?

首先,对中国自己的AI产业肯定是利好,因为中国在芯片上是很大的短板,无论是华为还是热炒的寒武纪,其芯片和英伟达都有着巨大的差距,DeepSeek能够在较弱的芯片上实现GPT等同模型效果,说明了高端芯片并不是必须条件。

当然,对立面就是对英伟达的影响,是比较负面的,英伟达股价之所以这么强,核心是高速互联的大集群高端芯片和完善的软件是大模型训练的基础,而且市场一直的共识是更好的模型需要更强的硬件基础,但是DeepSeek为大模型训练提供了新的思路,而且无论是训练还是推理,对算力的需求都大幅下降。

当然这个事情也是两面的,就是大家提到的杰文斯悖论,就是DeepSeek使得成本下降后,导致更多人、更多场景会使用AI,这反而增加了AI的需求量,两个因素叠在一起就是“价跌量增”,而“量增”也弥补“价跌”带来的减少,在长期里,总量甚至比之前更大。

那对英伟达以外的芯片公司是利好还是利空?也是利空,但是利空程度要小于英伟达,逻辑也比较简单,过去最先进的芯片就是英伟达,只有它一家,现在不需要那么先进的芯片,可以买其他家的芯片来替代英伟达,所以大家也可以看到其他家的跌幅小于英伟达。

此外,DeepSeek对中国的AI产业链是巨大的利好,因为进入的门槛降低了。我倒认为中美竞争的过程中,这种创新还会层出不穷,会在反转中反转再反转,当然也意味着里面投资机会会不停地出现。

一个实用的小分享

最后,DeepSeek怎么用?分享一个我个人认为的终极大招,之前的文章其实提到过,这次主要分享给没有读过之前文章的朋友。

我们想用DeepSeek帮我们处理一些事情的时候,我们不知道如何提问,该怎么办?

假设现在我们了解DeepSeek,以此为例,我们就问:“我想了解DeepSeek,我需要问什么问题?”然后把AI给出答案选取一些自己感兴趣的,再扔给它让它回答:

如果你有一个写年终总结的任务,但是你不知道如何问AI,你也可以这么写:

我需要让AI写一个总结,我该怎么做?

这个方法看似是偷懒的方式,它是有底层逻辑的,DeepSeek有个深度思考模式:

我们在上学时候做复杂的数学题,并不是一下子找到解题思路,这个时候是把已知的信息凭着直觉算几下,通过算出来的信息找下一个步骤,直到某个时间点突然灵光一现,看出来整道题怎么求解。

这个过程放在AI里叫“深度思考”模式,就是AI拿到问题之后,先基于我们给的问题问自己几个问题,然后先回答自己提出来的问题,一步一步往下,最后再反过来总结到一起,这个过程就是深度思考。就像我们解题的时候,草稿纸内容就是深度思考过程,卷子上内容是最终答案。

那我们问DeepSeek我们需要怎么问问题,本质就是打草稿的过程,这其实也算AI的一种高阶使用方法。

版权声明:部分文章推送时未能与原作者取得联系。若涉及版权问题,敬请原作者联系我们。

美苏争霸是历史书上的词,我们这代人基本没有什么切身体验,不过中美的竞争越来越白热化,会不会重演美苏争霸的历史老路。...假设现在我们了解DeepSeek,以此为例,我们就问:“我想了解DeepSeek,我需要问什么问题。

者:云墨

来源:云云云的书房(ID:Yun_Study_Room)

DeepSeek

首先,DeepSeek为什么热度这么高?

核心是两点:

a) 是源自中国的创新。

b) 是对美国头部AI公司来了一次釜底抽薪。

这两个一起才产生了这么大的效果,我们展开说说。

大家都知道美国是不卖给中国高端芯片的,这样下来,中国公司手中的AI芯片和美国公司相比,是有很大的代差。而AI模型的效果和模型规模成一定关系,就像汽车的发动机一样,越先进的发动机马力越足,模型也是如此,美国公司有更为先进的芯片,自然就可以往大了做模型,效果就越好。

那中国AI公司拿不到高性能的芯片,怎么办?

答案是:研究如何把手上的芯片效能发挥到最大。这是DeepSeek在手上芯片受限下做出惊艳全球大模型的最底层逻辑。

我们以汽车发动机为例,一般汽车是1.5L、2L甚至更大的发动机,由于美国制裁,现在相当于中国公司最大只能拿到0.3L的发动机。

美国那边没有发动机性能的限制,所以发动机往大了做,汽车也往豪华了设计。而DeepSeek却朝着另一个方向,由于只有0.3L的发动机,那就尝试做出了一个适配0.3升发动机的车,以便发动机效能发挥到极致,比如传动系统、底盘、车重、轮胎都围绕着这个发动机进行设计。

于是我们就看到了今天看到的结果,虽然DeepSeek只有H800芯片(相比美国公司拥有的芯片,H800是一款性能相对较弱的芯片),但是DeepSeek团队充分挖掘这颗芯片的性能,做出来一个跑在H800上的模型。

不过,大家可能有第二个疑问,国内企业在芯片上都受限,包括很多互联网大厂,为什么是DeepSeek做出来这个模型呢?

这得从DeepSeek背景说起,DeepSeek是国内量化基金幻方成立的AI模型公司,量化交易需要充分挖掘软件和底层硬件的性能,比如有些量化交易要求任务在微秒,甚至纳秒内完成,所以量化团队对底层硬件和上层软件都非常熟悉,团队过去做量化的时候就是使用英伟达的芯片,所以对芯片的理解也是极为深刻的。

也正是因为这样的团队背景,具备深度挖掘底层芯片的能力,所以虽然有一众互联网大厂,反而是DeepSeek团队做出来匹敌GPT-4o的模型。甚至可以这么说,DeepSeek最新的模型R1就是围绕H800定制的,这才是底层逻辑。

当然,对硬件和软件的深度理解不代表就一定能做出这样的模型,还需要拼搏努力和创新,所以这一点我们需要为DeepSeek点赞。

也正是沿着这个方向的深度挖掘,导致DeepSeek模型的训练和推理成本都更低,DeepSeek价格甚至是GPT的十分之一都不到,下图红框是DeepSeek的价格,蓝框是不同GPT模型的价格:

本来美国企业是凭着大资金、高算力芯片高枕无忧,以为中国芯片受限的情况下,追赶OpenAI是“遥不可及”的。却没想到中国被禁止获得高端芯片,朝着另一个方向去探索,不仅搞出来性能上不输GPT的模型,而且成本也更低。

这不仅让美国AI公司破防,而且同时破防了两次,甚至让美国AI公司产生了“大资金、高算力模式”到底对不对的自我怀疑,这才是DeepSeek火出圈的核心原因,DeepSeek也算是美国制裁的箭变成射中美国自己的回旋镖。

中美竞争和美苏争霸

美苏争霸是历史书上的词,我们这代人基本没有什么切身体验,不过中美的竞争越来越白热化,会不会重演美苏争霸的历史老路?

大概率中美的AI竞争和美苏冷战时候会不同,美苏的科技竞争是传统硬科技,是一个物理上相互“隔离的竞争”,只要研发的产品“物理”上不流入到对方手里,对方很难跟进,加上信息传播非常慢,甚至有些技术一方都投入使用很久了,另一方还不知道它的存在。

而今天的信息科技竞争,是在一张全球互联互通的大网上进行的,虽然像OpenAI把中国IP都禁止掉了,但是很轻松就换一个IP登录上去看到,中国有什么,美国可以看到,美国有什么,中国也可以看到。

所以今天,中美的任何进步都在对方的眼皮子底下,同时,当年的美苏争霸,还是两个经济体制的竞争,即计划经济和市场经济,前者效率上肯定比不过后者,今天的中国也是市场经济,从而没有了计划体制的约束。

我对中国的科技有足够的信心,很大的一个原因是中国的人才积累足够多,前些天看到一个评论很有意思,说这场AI的竞争是:在美国的中国人和在中国的中国人之间的竞争。

的确,美国科技领域华裔占比非常高,包括OpenAI公司里面也有很多华裔,中国本土也有大量的人才积累,既包括中国大量的高校培养出来的工程师,还包括BAT等互联网公司培养的实战人才。

启示

DeepSeek对谁利空、对谁利好?

首先,对中国自己的AI产业肯定是利好,因为中国在芯片上是很大的短板,无论是华为还是热炒的寒武纪,其芯片和英伟达都有着巨大的差距,DeepSeek能够在较弱的芯片上实现GPT等同模型效果,说明了高端芯片并不是必须条件。

当然,对立面就是对英伟达的影响,是比较负面的,英伟达股价之所以这么强,核心是高速互联的大集群高端芯片和完善的软件是大模型训练的基础,而且市场一直的共识是更好的模型需要更强的硬件基础,但是DeepSeek为大模型训练提供了新的思路,而且无论是训练还是推理,对算力的需求都大幅下降。

当然这个事情也是两面的,就是大家提到的杰文斯悖论,就是DeepSeek使得成本下降后,导致更多人、更多场景会使用AI,这反而增加了AI的需求量,两个因素叠在一起就是“价跌量增”,而“量增”也弥补“价跌”带来的减少,在长期里,总量甚至比之前更大。

那对英伟达以外的芯片公司是利好还是利空?也是利空,但是利空程度要小于英伟达,逻辑也比较简单,过去最先进的芯片就是英伟达,只有它一家,现在不需要那么先进的芯片,可以买其他家的芯片来替代英伟达,所以大家也可以看到其他家的跌幅小于英伟达。

此外,DeepSeek对中国的AI产业链是巨大的利好,因为进入的门槛降低了。我倒认为中美竞争的过程中,这种创新还会层出不穷,会在反转中反转再反转,当然也意味着里面投资机会会不停地出现。

一个实用的小分享

最后,DeepSeek怎么用?分享一个我个人认为的终极大招,之前的文章其实提到过,这次主要分享给没有读过之前文章的朋友。

我们想用DeepSeek帮我们处理一些事情的时候,我们不知道如何提问,该怎么办?

假设现在我们了解DeepSeek,以此为例,我们就问:“我想了解DeepSeek,我需要问什么问题?”然后把AI给出答案选取一些自己感兴趣的,再扔给它让它回答:

如果你有一个写年终总结的任务,但是你不知道如何问AI,你也可以这么写:

我需要让AI写一个总结,我该怎么做?

这个方法看似是偷懒的方式,它是有底层逻辑的,DeepSeek有个深度思考模式:

我们在上学时候做复杂的数学题,并不是一下子找到解题思路,这个时候是把已知的信息凭着直觉算几下,通过算出来的信息找下一个步骤,直到某个时间点突然灵光一现,看出来整道题怎么求解。

这个过程放在AI里叫“深度思考”模式,就是AI拿到问题之后,先基于我们给的问题问自己几个问题,然后先回答自己提出来的问题,一步一步往下,最后再反过来总结到一起,这个过程就是深度思考。就像我们解题的时候,草稿纸内容就是深度思考过程,卷子上内容是最终答案。

那我们问DeepSeek我们需要怎么问问题,本质就是打草稿的过程,这其实也算AI的一种高阶使用方法。

版权声明:部分文章推送时未能与原作者取得联系。若涉及版权问题,敬请原作者联系我们。

展开
打开“财经头条”阅读更多精彩资讯
APP内打开