AI云计算生死战：DeepSeek不养闲人

财经头条

提升一亿中产阶级阅读效率

打开

锦缎

4天前

今天DeepSeek公布模型推理成本，采用大规模跨节点专家并行（EP），计算通信重叠、GPU分配均衡的计算负载、通信负载，实现H800GPU集群545%的成本利润率。...不过在智算时代，计算，通信，存储的优化和云计算完全不同。

本文系基于公开资料撰写，仅作为信息交流之用，不构成任何投资建议。

我前两天去国内一家TOP前几的公有云单位交流。

我们提前预约了对方的一个部门领导，但是到了之后，对方草草聊了几句，就不好意思说道，要去开会。

这个会是集团的技术老大召集开会，这个不能缺席。

会议的议题就是DeepSeek开源之后对一些方向对策。

并且，从春节后，这种会议，就没有断过，都在后DeepSeek之后，思考云基础设施如何在智能领域的下一步发展的发展规划。

最后，对方的一个下属接待了我们。

后来交流得知，从DeepSeek出来之后，他们云上空闲的算力都被其他厂商买走了。

也就是说，现在囤积算力也是一个生意。

有人还在纠结，算力基础设施能不能盈利的事情。

别人已经实实在在感受到DeepSeek带来的真金白银了。

在我看来，智算中心可以这样分类：

前DeepSeek时代：

在DeepSeek出来之前，很多算力基础设施有没有人用都是疑问。

后DeepSeek时代：

DeepSeek出来之后，推理算力已经成为了紧俏的资源。

传统的云服务厂商，当年囤积不少算力机器。

这是因为云厂都有一些超前预测（forecast），肯定会超前部署一些带GPU的智算服务器。

这就和十几年前，超前建设城市主干道一样，双向12车道，但是没有什么车。

超前建设的困境是，这么多智算服务器，但是上面的应用其实是不多的。

和马路修完，车不多，一个道理。

但是，建设智算服务集群和修马路本质上一样，都是基础设施（infrastructure）。

所以智算集群就被叫做（AI infrastructure或者 AI infra）。

基础设施就需要有前瞻性。

对于这些资金雄厚（几百亿营收甚至更多），重资产（每年都要新增几十亿的服务器），重硬轻软的基础设施厂商来说。

搞了半辈子的云计算的IaaS（基础设置即服务），PaaS（平台即服务），SaaS（软件即服务）；

到了智算时代，跟不上步伐了。

因为玩法变成了Chatgpt这种，玩法是MaaS（Model as a Service），大模型即服务，通过将机器学习模型作为服务提供给用户。

GPU买了，智算服务器装好了，智算中心搭建了。

模型却没有了。

整好，有人雪中送炭。

DeepSeek模型开源了。

算力，咱有的是。

MaaS，这个也能闭环了。

对于传统的公有云厂商来说，不能说只是雪中送炭，而是在AI时代拿到了一个入场券。

DeepSeek出来后，推理的需求一下子就起来了。

智算中心买的这些GPU算力服务器，不论是插了N家的卡，还是国产的GPU卡，一下子都找到了应用的地方。

DeepSeek大模型的推理，需求一下子起来了。

DeepSeek开源，让传统云计算厂商一下子找到了智算时代的入口。

同样的道理，还有前几年建设的各种智算中心。

这些算力或多或少都会有更多的需求，而不是算力闲置。

DeepSeek开源把云计算厂商或者基础设施提供厂商“扶上马”。

但是，最近有人质疑这种模式的可持续性。

有人质疑，把算力转换成deepseek的服务（MaaS），到底赚不赚钱？

还有人计算，说DeepSeek月亏4亿。

有人则说亏不了这么多。

反正各有各的道理。

赚钱的也不能大张旗鼓的说自己赚钱了。

赔钱赚吆喝的也不能说，自己为什么免费？

无非为了获客，引流，培育市场等互联网“羊毛出在狗身上”常用手段。

这周开始，DeepSeek密集的发布了一周的技术开源。

变相的通过技术手段回应了这个质疑。

MaaS到底赚不赚钱？

理论上，只要更少投入（买机器的钱，电费，运营）可以做到更多的token产出，卖token的钱大于投入的钱，这个生意就是成立的。

但是问题就出在这里。

智算基础设施的优化和模型息息相关。

有人优化的好，就是百倍的产出，自然是赚钱的。

有人优化的差，卖的token还赚不回电费来，自然是赔钱的。

而这个优化，就是指的智算基础设施（AI infra）的优化。

本质上，这种在云计算时代也是这样算计就是降低TCO。

在云计算时代，对云计算的计算节点，网络节点，存储节点进行优化，，不过科技树是点在虚拟化/裸金属，负载均衡/OVS，分布式存储等方面。

不过在智算时代，计算，通信，存储的优化和云计算完全不同。

这些知识只能从头再来。

精耕细作，增加产出。

只不过，在智算时代，这些手段还都处在konw-how的阶段。

这个星期开始，DeepSeek把这些konw-how逐渐的发布出来。

这些开源的技术，本质上，就是手把手的告诉基础设施服务商，也就是如何优化智算基础设施。

让这些智算中心能够单位成本有更多产出。就是同一块地，能够多打粮食，自然就赚得多，同样一块地，种出的粮食少了，自然赔钱，甚至饿死。

那么DeepSeek是如何优化底层基础设施？

我们来看，开源周每天发布的技术分别是：

第一天：FlashMLA
第二天：DeepEP
第三天：DeepGEMM（FP8矩阵乘法库）
第四天：DualPipe、EPLB、profile-data
第五天：3FS、Smallpond

我们按照我的理解，把这些优化手段，分为三类。

分别是计算，通信，和存储（和云计算时代保持一致）。

一、计算：算力加速与硬件优化

FlashMLA
针对英伟达Hopper架构GPU优化的解码加速技术，通过动态内存调度和并行计算优化，显著提升大模型推理速度，在H800 GPU上实现3000GB/s内存带宽和580TFLOPS计算性能，支持变长序列处理，显存占用降低45%。
DeepGEMM
基于FP8（8位浮点）的通用矩阵乘法库，支持混合专家模型（MoE）训练与推理加速，在Hopper GPU上实现1350 TFLOPs计算性能，代码仅300行，小批量场景加速比达2.7倍结合即时编译（JIT）与CUDA核心优化，平衡速度与精度，减少显存占用。

二、通信：智算集群通信优化与并行计算

DeepEP
首个面向MoE模型的开源专家并行通信库，支持低精度（如FP8）数据传输，优化多GPU间通信效率。
DualPipe（双向流水线并行算法）
解决传统流水线并行中的等待时间问题，通过双向调度实现计算与通信重叠，提升训练效率。
EPLB（专家并行负载均衡器）

动态分配专家模型任务至空闲GPU，避免资源闲置。支持冗余专家与动态调整高负载专家。

三、存储：智算集群存储与数据处理

3FS（高性能分布式文件系统）：
解决AI训练中TB/PB级数据的存储与访问瓶颈，支持SSD+RDMA硬件优化，实现超高吞吐（6.6 TiB/s）与低延迟。解耦计算与存储资源，支持强一致性，适用于模型检查点保存、向量搜索等场景。
Smallpond：
基于3FS的数据处理框架，简化数据清洗、转换与加载（ETL），支持大规模AI训练与实时分析。

DeepSeek的开源，利好云计算厂商。

特别是在智算时代囤积了大量算力的厂商。

这些智算基础设施优化之后，可以发挥出，十倍甚至百倍的算力输出（token）。

着实是“扶上马再送一程。”

对传统云计算厂商来说，一下子从云计算服务商跨越到智算服务商的时代。

大家可以关注下这些厂商25年的营收，或多或少，都有不少的收获。

而今天DeepSeek公布模型推理成本，采用大规模跨节点专家并行（EP），计算通信重叠、GPU 分配均衡的计算负载、通信负载，实现H800 GPU集群545%的成本利润率。

对于DeepSeek来说，属于收官之战。

这场技术突围证明：当算法优化突破临界点，算力基础设施即可从"资源消耗型"跃迁为"价值创造型"。

也就说，优化的好，从智算基础设施（AI infra）到智算服务（MaaS）是能赚钱的。

而优化的不好，AI infra就是赔钱的。

赚不到钱的，正确的姿势应该是技术上反思，优化，提升。

毕竟不会就学，没啥丢人的。

真正丢人是在无能狂怒的骂街。

与其“菜”还爱骂街，不如好好研究github上代码。

毕竟，有句老话说得好啊。

talk is cheap ，show me the code。

就像内燃机诞生之初，99%的能量曾以热能形式散失。

当蒸汽机突破热效率极限，工业革命席卷全球；

技术史上的每一次跃迁，都在证明同一个真理：工具的进化，本质是能量利用效率的革命。

今天的AI infra优化，何尝不是一场面向能量效率的革命。

如果在DeepSeek开源之后，基础设施厂商还不能把AI infra优化到可以正向输出token能够赢利的境地，那这种“AI伪玩家”就只有被淘汰下场。

AI重构生产力，AI infra则淘汰低效者。

人工智能不养“闲人”。（作者：歪睿老哥）

转载开白 | 商务合作 | 内容交流
请添加微信：jinduan008
添加微信请备注姓名公司与来意

推荐阅读