DeepSeek目前搞得美国AI圈人心惶惶。
DeepSeek(深度求索)是由梁文锋成立的。梁文锋是量化投资领域的知名人物,同时也是量化私募巨头幻方量化的创始人。他于2023年7月17日创立了杭州深度求索人工智能基础技术研究有限公司(DeepSeek),专注于开发先进的大语言模型(LLM)和相关技术。
梁文锋(右)
他做得最正确的选择恐怕就是用量化投资赚的钱在较早时候开始屯英伟达GPU。幻方量化作为中国头部量化私募基金,早在2021年便大规模布局AI算力,搭建了高性能计算集群“萤火一号”和“萤火二号”,并成为国内少数几家储备上万张英伟达A100 GPU的机构。
随着美国逐步封禁出口GPU,有卡的创业者和没卡的完全就是两回事了,在初期就是算力为王。这样有算力支撑且不急着赚钱的创业公司,在目前中国大模型领域恐怕也就是头部几个互联网大厂能比的。
2023年,幻方创始人梁文锋在接受采访时明确表示,公司已拥有超过1万张英伟达A100显卡,这些资源直接支持了DeepSeek的模型训练需求。
但算力的丰厚并未让团队依赖粗放的训练模式,而是采用了自主设计的MoE(混合专家)架构,在降低算力成本的同时提升模型性能。在训练其标志性模型DeepSeek-V3时,DeepSeek使用了2048块英伟达H800 GPU(H100的中国特供版),并通过高速互联技术(如NVLink和InfiniBand)构建算力集群,相比之下,Meta训练同等规模的Llama 3.1模型需超过16000块H100 GPU,而DeepSeek仅用少量GPU便实现了性能对标,凸显其硬件利用效率。
实际验证,DeepSeek-V3在多项基准测试中接近GPT-4水平,但推理成本仅为其1/50。
但即便如此,我看到一些散户股民们对梁并不友好。
他们认为梁通过量化收割了散户,赚的钱不光彩。
量化投资对散户,确实是降维打击,但也不是他一家做量化,如果合法合规,那就没问题。他赚了钱,至少去投资国家级别的基础科研产品,带动就业,也没转移出去挥霍。
当然,这也给梁提了一个醒,现在海外对DeepSeek评价非常高,可千万别飘了,DeepSeek未来能否真的搞出通用人工智能还需要时日检验,另外还是要面对商业版本能否赚钱的考验。
不过从发言中看出他还是比较清醒的。梁文锋指出,中国AI与美国的真实差距在于“原创式创新”的不足。
尽管中国在应用层快速追赶,但基础架构层面的突破仍依赖西方技术社区。中国过去三十年更强调商业变现而非基础研究,企业普遍选择“短平快”的应用开发路径。例如,多数中国公司直接复制Llama架构,而非探索新结构。
中美AI差距的本质是系统性创新能力的差距,而非单一技术指标或时间维度。他呼吁中国科技界摆脱“跟随惯性”,通过原创研究、开源协作和生态建设缩小差距。
他认为,创新的核心驱动力是“好奇心与创造欲”,而非单纯商业利益。
能够搞出DeepSeek,一部分确实是因为他有钱,但从另外一个角度看,把目标定在通用人工智能AGI,也许是他能够在早期就下决心开始屯卡的原因之一吧,这让他获得了早期的优势。
好奇心与创造欲,能否支撑DeepSeek跨越后续发展的数字鸿沟,我们拭目以待!
参考资料:DeepSeek
点击「推荐❤」,锦鲤附身!
- END -
DeepSeek目前搞得美国AI圈人心惶惶。
DeepSeek(深度求索)是由梁文锋成立的。梁文锋是量化投资领域的知名人物,同时也是量化私募巨头幻方量化的创始人。他于2023年7月17日创立了杭州深度求索人工智能基础技术研究有限公司(DeepSeek),专注于开发先进的大语言模型(LLM)和相关技术。
梁文锋(右)
他做得最正确的选择恐怕就是用量化投资赚的钱在较早时候开始屯英伟达GPU。幻方量化作为中国头部量化私募基金,早在2021年便大规模布局AI算力,搭建了高性能计算集群“萤火一号”和“萤火二号”,并成为国内少数几家储备上万张英伟达A100 GPU的机构。
随着美国逐步封禁出口GPU,有卡的创业者和没卡的完全就是两回事了,在初期就是算力为王。这样有算力支撑且不急着赚钱的创业公司,在目前中国大模型领域恐怕也就是头部几个互联网大厂能比的。
2023年,幻方创始人梁文锋在接受采访时明确表示,公司已拥有超过1万张英伟达A100显卡,这些资源直接支持了DeepSeek的模型训练需求。
但算力的丰厚并未让团队依赖粗放的训练模式,而是采用了自主设计的MoE(混合专家)架构,在降低算力成本的同时提升模型性能。在训练其标志性模型DeepSeek-V3时,DeepSeek使用了2048块英伟达H800 GPU(H100的中国特供版),并通过高速互联技术(如NVLink和InfiniBand)构建算力集群,相比之下,Meta训练同等规模的Llama 3.1模型需超过16000块H100 GPU,而DeepSeek仅用少量GPU便实现了性能对标,凸显其硬件利用效率。
实际验证,DeepSeek-V3在多项基准测试中接近GPT-4水平,但推理成本仅为其1/50。
但即便如此,我看到一些散户股民们对梁并不友好。
他们认为梁通过量化收割了散户,赚的钱不光彩。
量化投资对散户,确实是降维打击,但也不是他一家做量化,如果合法合规,那就没问题。他赚了钱,至少去投资国家级别的基础科研产品,带动就业,也没转移出去挥霍。
当然,这也给梁提了一个醒,现在海外对DeepSeek评价非常高,可千万别飘了,DeepSeek未来能否真的搞出通用人工智能还需要时日检验,另外还是要面对商业版本能否赚钱的考验。
不过从发言中看出他还是比较清醒的。梁文锋指出,中国AI与美国的真实差距在于“原创式创新”的不足。
尽管中国在应用层快速追赶,但基础架构层面的突破仍依赖西方技术社区。中国过去三十年更强调商业变现而非基础研究,企业普遍选择“短平快”的应用开发路径。例如,多数中国公司直接复制Llama架构,而非探索新结构。
中美AI差距的本质是系统性创新能力的差距,而非单一技术指标或时间维度。他呼吁中国科技界摆脱“跟随惯性”,通过原创研究、开源协作和生态建设缩小差距。
他认为,创新的核心驱动力是“好奇心与创造欲”,而非单纯商业利益。
能够搞出DeepSeek,一部分确实是因为他有钱,但从另外一个角度看,把目标定在通用人工智能AGI,也许是他能够在早期就下决心开始屯卡的原因之一吧,这让他获得了早期的优势。
好奇心与创造欲,能否支撑DeepSeek跨越后续发展的数字鸿沟,我们拭目以待!
参考资料:DeepSeek
点击「推荐❤」,锦鲤附身!
- END -