DeepSeek-V3横空出世,浙江私募力量震惊硅谷

虎嗅APP

2天前

中国AI公司过去几乎都在照搬硅谷,以致人们普遍认为:美国擅长从0到1的技术突破,而中国只擅长从1到100的应用落地。...这股神秘的东方力量,令人称奇的地方在于,它幕后的资方并不是腾讯、阿里这样的互联网巨头,而是一家低调的私募基金——幻方量化。

本文来自微信公众号:华商韬略,作者:张静波,主编:毕亚军,责编:周怡,原文标题:《浙江私募大佬,一夜震惊硅谷》,题图来自:视觉中国

2024年冬天,杭州。

当西方还沉浸在圣诞节的狂欢中时,一位中国码农,站在巨大的落地窗前,远眺着窗外的京杭大运河。

几分钟后,他做了一件令硅谷震惊的事。

来自东方的神秘力量

“一种新的模式,让整个山谷都嗡嗡作响!”

美国CNBC电视台在报道这件事对硅谷的影响时,这样评价道。

12月26日,杭州一家名为“深度求索”的中国初创公司,发布了全新一代大模型:DeepSeek-V3。

在多个基准测试中,DeepSeek-V3的性能均超越了其他开源模型,甚至与顶尖的闭源大模型GPT-4o不相上下。

尤其在数学推理上,DeepSeek-V3更是遥遥领先。

令人惊讶的是,DeepSeek-V3在性能比肩GPT-4o的同时,研发却只花了558万美元,训练成本不到后者的二十分之一。

这让美国人彻底坐不住了。

在此之前,谷歌和Open AI花了几年时间,耗资数亿甚至数十亿美元,调用了几万块最先进的GPU,才干成同样的事情。

强烈的对比,让美国人反思:大模型和算力,是否还值得投资?

很多硅谷大佬在纷纷点赞的同时,也体验到中国科技带来的苦涩:当美国人休息时,他们在奋力追上我们!

有意思的是,这件事与中国空军六代机现身,几乎前后脚发生。

不少美国人认为,这比六代机更像上世纪50年代,苏联抢先发射第一颗人造卫星的斯普特尼克时刻。

然而,真正让美国硅谷感到震撼的,还不是DeepSeek-V3的高性能、低成本,而是中国人展现出的首创精神。

中国AI公司过去几乎都在照搬硅谷,以致人们普遍认为:美国擅长从0到1的技术突破,而中国只擅长从1到100的应用落地。

DeepSeek-V3打破了这种成见,它以MLA、DeepSeekMoE等多项开创性技术,大幅提升了模型的性能和训练效率。

美国人惊讶地发现,原来中国公司也可以作为创新贡献者,在他们的游戏之外,自定游戏规则。这在过去是极其罕见的。

因为表现太过优越,DeepSeek在硅谷被誉为来自东方的神秘力量。

这股神秘的东方力量,令人称奇的地方在于,它幕后的资方并不是腾讯、阿里这样的互联网巨头,而是一家低调的私募基金——幻方量化。

目前,国内拥有万卡GPU的企业不超过5家,幻方就是其中之一。

它在2023年成立子公司“深度求索”,开始DeepSeek大模型的研发,整个团队只有139名成员,远少于OpenAI的1200人。

执掌这支战队的,是一个叫梁文峰的80后,也是幻方量化的创始人。

当好奇心驱动了疯狂

梁文峰和幻方的故事始于2008年。

那一年,从浙大毕业、主修软件工程的他,没有像同龄人一样进入大厂当码农,而是一个人跑到成都,蜗居在出租屋里。

在那里,梁文峰开始研究用计算机赚钱的各种路子。

几番折腾下来,他决定下场做量化投资。但这个决定并不容易,毕竟当时量化在国内还是个新事物。

很多人并不相信量化可以赚钱。

每当遇到困难时,梁文峰总会想起量化投资之父西蒙斯的一句话:一定有办法对价格建模。

在这个信念的支撑下,梁文峰苦苦熬了两年,终于柳暗花明。2010年,沪深300股指期货推出,量化投资迎来了春天。

乘着这股东风,梁文峰和他的团队大赚一笔,自营资金超过5亿元。

也就是同一时期,随着深度学习算法的突破,人工智能大爆发。早年在浙大就研究人工智能的梁文峰,燃起雄雄斗志。

2015年,他和浙大校友共同创立了幻方量化。

几个意气风发的年轻人试图用数学和人工智能,在中国打造一个像文艺复兴那样世界顶级的量化对冲基金。

仅仅一年后,他们就上线了第一笔由AI驱动的实盘交易,并在随后将所有交易策略都AI化。

新技术的加持,让幻方量化旗下的基金回报率远超同期沪深300指数。

这推动幻方量化基金的规模持续攀升,到2021年一度超千亿元大关,位列国内量化四大天王之一。

然而,在基金规模膨胀的同时,梁文峰却面临一个棘手的问题。

AI交易策略需要算力支持,尤其是模型随着参数激增,对GPU算力的需求也在不断增长。

如何破解这一难题?梁文峰的选择是:堆算力!从2019年开始,幻方量化开始大规模布局AI算力。

当年就投资2亿元,建成“萤火一号”AI算力集群,搭载1100块GPU算卡。而彼时的特斯拉,才刚刚提出Dojo超算概念。

几个月后,当英伟达发布最新A100芯片时,梁文峰再次抢跑,成为亚太地区第一批拿到此卡的人。

紧接着2021年,他又投资10亿元建成“萤火二号”,搭载1万A100算卡,算力相当于76万台个人电脑。

其占地面积比10个篮球场还要大。

在AI大模型还没有爆发的年代,梁文峰的举动让很多人感到疯狂。

一家私募基金囤这么多算力,究竟意欲何为?甚至有媒体抱怨:幻方量化把A股散户吓坏了。

外界对幻方量化的想象,还停留在资本市场上。但梁文峰的目光,早已望向星辰大海。

2017年,谷歌研究团队在一篇开创性的论文中首次提出Transformer架构。这是一种完全基于注意力机制的神经网络,它颠覆了过去的传统算法。

一家叫OpenAI的美国初创公司,基于新架构不断训练自己的大模型。最终在2022年以ChatGPT引爆AI大模型时代。

此后,全球互联网巨头沿着OpenAI的路线推进,很少有人质疑。

但一群初生牛犊的年轻人,在梁文峰的带领下,干了一件极其疯狂的事:他们试图改进Transformer架构。

事实上,从2023年创立深度求索,进军大模型的第一天起,梁文峰及其团队对算法框架的反思就开始了。

当别人陷入简单模仿OpenAI的惯性中时,这群年轻人不走寻常路。

他们冒着失败的风险,大胆尝试了MLA(多头潜在注意力机制)、DeepSeekMoE(混合专家模型)等多种开创性技术。

几年前囤下的海量算力芯片,为他们的梦想插上了翅膀。

最终,这群年轻人创造了历史:DeepSeek-V3横空出世,一夜震惊了硅谷。

“中国不可能永远跟随”

对比中美科技产业,我们常常感叹:中国为什么出不了像乔布斯、马斯克、黄仁勋一样伟大的企业家?

乔布斯生前只有一个目标:活着,就是为了改变世界。

黄仁勋早在青年时,就立下雄心壮志:要做不一样的事,要彻底改变计算。

马斯克更是疯狂地喊出:要殖民火星,为人类寻找第二家园。

相比之下,中国企业家似乎把更多的目光放在赚钱和生存上,很少抬头仰望星空,对创新的重视也不够。

事实上,过去30年,我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。

这使得我们在一轮又一轮的IT浪潮中基本没有参与到真正的技术创新里。

但这种局面在近几年悄然改变,中国新生代企业家正以突破性创新,在西方的游戏之外另起炉灶。

“中国也要逐步成为创新贡献者,而不是一直搭便车。”梁文峰表示。

早在上大学时,梁文峰就笃定:AI一定会改变世界。毕业后,他在量化投资上赚了足够多的钱。

这使得他有足够的资本听从内心的声音,去做自己喜欢的事情,而不是首先权衡利弊得失。

DeepSeek创立之初,就确立了核心使命:探索通用人工智能的本质!

在中国AI界,还很少有企业敢提出如此疯狂的目标。

于是,在过去几年,当很多大模型厂商忙着抢用户、做商业化变现时,梁文峰却苦哈哈搞起了看似不赚钱的基础研究。

“创新不完全是商业驱动的,还需要好奇心和创造欲。”他说。

在梁文峰看来,中国企业在过去被商业驱动的惯性束缚了。他希望DeepSeek能摆脱这种束缚。

这样的经营理念,在当下的中国企业界,显得有点离经叛道。

曾经有不止一位业内人士表示:梁文峰是中国AI界非常罕见的人,他拥有恐怖的学习能力,兼具强大的infra工程和模型研究能力,又能调动资源。

在内部员工看来,梁文峰则完全不像老板,更像一个极客。

时至今日,他依旧延续着低调的作风,和公司其他研究员一样,每天看论文,写代码,参与小组讨论。

这个低调的大佬,就连选人、用人的方式也跟主流格格不入。

当很多大模型公司热衷于去海外挖人时,梁文峰却反其道而行之,坚持从本土招人,并放出豪言:“世界前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。”

不仅没有海外人才,也没有行业大佬。梁文峰更喜欢没有经验的年轻人,因为他们不受条条框框的束缚。

在DeepSeek,选人的标准一直都是热爱和好奇心。

事实上,这家初创公司并非外界传言,有一批高深莫测的奇才,而都是一些毕业才几年的年轻人。

甚至有很多是北大、清华等Top高校中还没毕业的博四、博五实习生。

因为工作太前沿,这些年轻人在开展工作时,几乎没有参考资料。但也正是这种空白让他们敢于突破传统。

比如,DeepSeek-V3最重要的创新之一MLA架构,就来自一个年轻人的突发奇想。

DeepSeek的内部也没有上下级分工。

研究过程中如果有想法,每个人都可以拉人讨论,并随时调用公司训练集群的卡,无需审批,不设上限。

这种看似松散的管理方式极大地调动了所有人的好奇心和创造欲,让DeepSeek-V3得以横空出世。

在梁文峰身上,我们依稀看到了乔布斯、马斯克、黄仁勋的影子。

“中国AI不可能永远处在跟随的位置!”

“真正的差距不是一年或两年,而是原创与模仿之差。”

这两句从梁文峰口中喊出的话,不仅事关AI产业,也是中国企业在跟随、模仿了西方几十年后,不得不面对的突破方向。

低垂的果子都被摘完了,只有敢于突破,才能找到新的出路。

梁文峰并不孤单。

今天,从大疆无人机汪滔,到宇树机器人王兴兴……一大批新生代企业家,正将中国科技产业带向无人区。

参考资料:

[1]《揭秘DeepSeek:一个更极致的中国技术理想主义故事》暗涌Waves

[2]《疯狂的幻方:一家隐形AI巨头的大模型之路》暗涌Waves

本文来自微信公众号:华商韬略,作者:张静波,主编:毕亚军,责编:周怡

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com

End

想涨知识 关注虎嗅视频号!

中国AI公司过去几乎都在照搬硅谷,以致人们普遍认为:美国擅长从0到1的技术突破,而中国只擅长从1到100的应用落地。...这股神秘的东方力量,令人称奇的地方在于,它幕后的资方并不是腾讯、阿里这样的互联网巨头,而是一家低调的私募基金——幻方量化。

本文来自微信公众号:华商韬略,作者:张静波,主编:毕亚军,责编:周怡,原文标题:《浙江私募大佬,一夜震惊硅谷》,题图来自:视觉中国

2024年冬天,杭州。

当西方还沉浸在圣诞节的狂欢中时,一位中国码农,站在巨大的落地窗前,远眺着窗外的京杭大运河。

几分钟后,他做了一件令硅谷震惊的事。

来自东方的神秘力量

“一种新的模式,让整个山谷都嗡嗡作响!”

美国CNBC电视台在报道这件事对硅谷的影响时,这样评价道。

12月26日,杭州一家名为“深度求索”的中国初创公司,发布了全新一代大模型:DeepSeek-V3。

在多个基准测试中,DeepSeek-V3的性能均超越了其他开源模型,甚至与顶尖的闭源大模型GPT-4o不相上下。

尤其在数学推理上,DeepSeek-V3更是遥遥领先。

令人惊讶的是,DeepSeek-V3在性能比肩GPT-4o的同时,研发却只花了558万美元,训练成本不到后者的二十分之一。

这让美国人彻底坐不住了。

在此之前,谷歌和Open AI花了几年时间,耗资数亿甚至数十亿美元,调用了几万块最先进的GPU,才干成同样的事情。

强烈的对比,让美国人反思:大模型和算力,是否还值得投资?

很多硅谷大佬在纷纷点赞的同时,也体验到中国科技带来的苦涩:当美国人休息时,他们在奋力追上我们!

有意思的是,这件事与中国空军六代机现身,几乎前后脚发生。

不少美国人认为,这比六代机更像上世纪50年代,苏联抢先发射第一颗人造卫星的斯普特尼克时刻。

然而,真正让美国硅谷感到震撼的,还不是DeepSeek-V3的高性能、低成本,而是中国人展现出的首创精神。

中国AI公司过去几乎都在照搬硅谷,以致人们普遍认为:美国擅长从0到1的技术突破,而中国只擅长从1到100的应用落地。

DeepSeek-V3打破了这种成见,它以MLA、DeepSeekMoE等多项开创性技术,大幅提升了模型的性能和训练效率。

美国人惊讶地发现,原来中国公司也可以作为创新贡献者,在他们的游戏之外,自定游戏规则。这在过去是极其罕见的。

因为表现太过优越,DeepSeek在硅谷被誉为来自东方的神秘力量。

这股神秘的东方力量,令人称奇的地方在于,它幕后的资方并不是腾讯、阿里这样的互联网巨头,而是一家低调的私募基金——幻方量化。

目前,国内拥有万卡GPU的企业不超过5家,幻方就是其中之一。

它在2023年成立子公司“深度求索”,开始DeepSeek大模型的研发,整个团队只有139名成员,远少于OpenAI的1200人。

执掌这支战队的,是一个叫梁文峰的80后,也是幻方量化的创始人。

当好奇心驱动了疯狂

梁文峰和幻方的故事始于2008年。

那一年,从浙大毕业、主修软件工程的他,没有像同龄人一样进入大厂当码农,而是一个人跑到成都,蜗居在出租屋里。

在那里,梁文峰开始研究用计算机赚钱的各种路子。

几番折腾下来,他决定下场做量化投资。但这个决定并不容易,毕竟当时量化在国内还是个新事物。

很多人并不相信量化可以赚钱。

每当遇到困难时,梁文峰总会想起量化投资之父西蒙斯的一句话:一定有办法对价格建模。

在这个信念的支撑下,梁文峰苦苦熬了两年,终于柳暗花明。2010年,沪深300股指期货推出,量化投资迎来了春天。

乘着这股东风,梁文峰和他的团队大赚一笔,自营资金超过5亿元。

也就是同一时期,随着深度学习算法的突破,人工智能大爆发。早年在浙大就研究人工智能的梁文峰,燃起雄雄斗志。

2015年,他和浙大校友共同创立了幻方量化。

几个意气风发的年轻人试图用数学和人工智能,在中国打造一个像文艺复兴那样世界顶级的量化对冲基金。

仅仅一年后,他们就上线了第一笔由AI驱动的实盘交易,并在随后将所有交易策略都AI化。

新技术的加持,让幻方量化旗下的基金回报率远超同期沪深300指数。

这推动幻方量化基金的规模持续攀升,到2021年一度超千亿元大关,位列国内量化四大天王之一。

然而,在基金规模膨胀的同时,梁文峰却面临一个棘手的问题。

AI交易策略需要算力支持,尤其是模型随着参数激增,对GPU算力的需求也在不断增长。

如何破解这一难题?梁文峰的选择是:堆算力!从2019年开始,幻方量化开始大规模布局AI算力。

当年就投资2亿元,建成“萤火一号”AI算力集群,搭载1100块GPU算卡。而彼时的特斯拉,才刚刚提出Dojo超算概念。

几个月后,当英伟达发布最新A100芯片时,梁文峰再次抢跑,成为亚太地区第一批拿到此卡的人。

紧接着2021年,他又投资10亿元建成“萤火二号”,搭载1万A100算卡,算力相当于76万台个人电脑。

其占地面积比10个篮球场还要大。

在AI大模型还没有爆发的年代,梁文峰的举动让很多人感到疯狂。

一家私募基金囤这么多算力,究竟意欲何为?甚至有媒体抱怨:幻方量化把A股散户吓坏了。

外界对幻方量化的想象,还停留在资本市场上。但梁文峰的目光,早已望向星辰大海。

2017年,谷歌研究团队在一篇开创性的论文中首次提出Transformer架构。这是一种完全基于注意力机制的神经网络,它颠覆了过去的传统算法。

一家叫OpenAI的美国初创公司,基于新架构不断训练自己的大模型。最终在2022年以ChatGPT引爆AI大模型时代。

此后,全球互联网巨头沿着OpenAI的路线推进,很少有人质疑。

但一群初生牛犊的年轻人,在梁文峰的带领下,干了一件极其疯狂的事:他们试图改进Transformer架构。

事实上,从2023年创立深度求索,进军大模型的第一天起,梁文峰及其团队对算法框架的反思就开始了。

当别人陷入简单模仿OpenAI的惯性中时,这群年轻人不走寻常路。

他们冒着失败的风险,大胆尝试了MLA(多头潜在注意力机制)、DeepSeekMoE(混合专家模型)等多种开创性技术。

几年前囤下的海量算力芯片,为他们的梦想插上了翅膀。

最终,这群年轻人创造了历史:DeepSeek-V3横空出世,一夜震惊了硅谷。

“中国不可能永远跟随”

对比中美科技产业,我们常常感叹:中国为什么出不了像乔布斯、马斯克、黄仁勋一样伟大的企业家?

乔布斯生前只有一个目标:活着,就是为了改变世界。

黄仁勋早在青年时,就立下雄心壮志:要做不一样的事,要彻底改变计算。

马斯克更是疯狂地喊出:要殖民火星,为人类寻找第二家园。

相比之下,中国企业家似乎把更多的目光放在赚钱和生存上,很少抬头仰望星空,对创新的重视也不够。

事实上,过去30年,我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。

这使得我们在一轮又一轮的IT浪潮中基本没有参与到真正的技术创新里。

但这种局面在近几年悄然改变,中国新生代企业家正以突破性创新,在西方的游戏之外另起炉灶。

“中国也要逐步成为创新贡献者,而不是一直搭便车。”梁文峰表示。

早在上大学时,梁文峰就笃定:AI一定会改变世界。毕业后,他在量化投资上赚了足够多的钱。

这使得他有足够的资本听从内心的声音,去做自己喜欢的事情,而不是首先权衡利弊得失。

DeepSeek创立之初,就确立了核心使命:探索通用人工智能的本质!

在中国AI界,还很少有企业敢提出如此疯狂的目标。

于是,在过去几年,当很多大模型厂商忙着抢用户、做商业化变现时,梁文峰却苦哈哈搞起了看似不赚钱的基础研究。

“创新不完全是商业驱动的,还需要好奇心和创造欲。”他说。

在梁文峰看来,中国企业在过去被商业驱动的惯性束缚了。他希望DeepSeek能摆脱这种束缚。

这样的经营理念,在当下的中国企业界,显得有点离经叛道。

曾经有不止一位业内人士表示:梁文峰是中国AI界非常罕见的人,他拥有恐怖的学习能力,兼具强大的infra工程和模型研究能力,又能调动资源。

在内部员工看来,梁文峰则完全不像老板,更像一个极客。

时至今日,他依旧延续着低调的作风,和公司其他研究员一样,每天看论文,写代码,参与小组讨论。

这个低调的大佬,就连选人、用人的方式也跟主流格格不入。

当很多大模型公司热衷于去海外挖人时,梁文峰却反其道而行之,坚持从本土招人,并放出豪言:“世界前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。”

不仅没有海外人才,也没有行业大佬。梁文峰更喜欢没有经验的年轻人,因为他们不受条条框框的束缚。

在DeepSeek,选人的标准一直都是热爱和好奇心。

事实上,这家初创公司并非外界传言,有一批高深莫测的奇才,而都是一些毕业才几年的年轻人。

甚至有很多是北大、清华等Top高校中还没毕业的博四、博五实习生。

因为工作太前沿,这些年轻人在开展工作时,几乎没有参考资料。但也正是这种空白让他们敢于突破传统。

比如,DeepSeek-V3最重要的创新之一MLA架构,就来自一个年轻人的突发奇想。

DeepSeek的内部也没有上下级分工。

研究过程中如果有想法,每个人都可以拉人讨论,并随时调用公司训练集群的卡,无需审批,不设上限。

这种看似松散的管理方式极大地调动了所有人的好奇心和创造欲,让DeepSeek-V3得以横空出世。

在梁文峰身上,我们依稀看到了乔布斯、马斯克、黄仁勋的影子。

“中国AI不可能永远处在跟随的位置!”

“真正的差距不是一年或两年,而是原创与模仿之差。”

这两句从梁文峰口中喊出的话,不仅事关AI产业,也是中国企业在跟随、模仿了西方几十年后,不得不面对的突破方向。

低垂的果子都被摘完了,只有敢于突破,才能找到新的出路。

梁文峰并不孤单。

今天,从大疆无人机汪滔,到宇树机器人王兴兴……一大批新生代企业家,正将中国科技产业带向无人区。

参考资料:

[1]《揭秘DeepSeek:一个更极致的中国技术理想主义故事》暗涌Waves

[2]《疯狂的幻方:一家隐形AI巨头的大模型之路》暗涌Waves

本文来自微信公众号:华商韬略,作者:张静波,主编:毕亚军,责编:周怡

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com

End

想涨知识 关注虎嗅视频号!

展开
打开“财经头条”阅读更多精彩资讯
APP内打开