点击小程序查看报告原文
Abstract
摘要
2025年2月24-28日,DeepSeek进行为期一周的Infra开源周,Infra工程优化能力国内领先。我们就开源周内容进行梳理,并对推理算力及毛利率水平进行测算。
DeepSeek开源周深度适配GPU特性,通过五大Infra核心技术构建大模型-算力全栈协同体系,FP8精度与通信优化为核心。计算层,FlashMLA实现可变长序列解码加速,配合DeepGEMM的FP8动态精度矩阵运算突破算力瓶颈。通信层,DeepEP通过FP8压缩与RDMA(Remote Direct Memory Access)技术打通MoE模型跨节点传输,DualPipe/EPLB则以计算-通信流水线重叠消除分布式训练间隙并实现负载均衡;存储层通过3FS文件系统以SSD(Solid State Drive)+RDMA架构保障数据高效存取。DeepSeek以“单卡算力提升-核心计算加速-通信延迟降低-多卡协作优化-数据流高速供给”为技术脉络,形成软硬协同的优化闭环,最终将千亿参数模型的训练、推理效率推向硬件极限,实现大模型开发成本的大幅压缩。
DeepSeek成本及算力测算:毛利率水平国内领先。DeepSeek在3月1日公开了模型推理效率和成本,我们以模型API定价测算收入、GPU hours租赁成本作为考虑的核心成本项,来测算综合毛利率:倘若这些输入/输出Token全按照R1的定价,收费是56万美元;而按照V3的定价,收费是30万美元左右,则对应毛利率分别为84.5%/71%,因此综合毛利率应在71-84.5%,这一毛利率在行业中处于领先的水平。
Infra优化能力进一步推动大模型平权,Agent等应用有望带来AI应用百花齐放、推理算力需求乐观。1)推理算力侧,我们认为AI infra的进步将会提升算力利用效率,推动整个行业的繁荣,这对于未来的推理算力需求影响为正面;此外,我们认为多模态、Manus等Agent应用有望驱动更大规模的推理算力需求。2)应用侧,我们认为随着模型推理成本的持续降低,推理成本已进入“不敏感”区间,更多AI应用的规模商业化取决于模型能力、工程优化。其中2C应用,我们更看好互联网公司在产品化的沉淀;2B应用,我们则更为关注垂类卡位的企业服务厂商的客户、场景沉淀。
风险
技术进展不及预期,商业化落地不及预期。
DeepSeek开源周:Infra层优化能力行业领先
DeepSeek开源周深度适配GPU特性,通过五大Infra核心技术构建大模型-算力全栈协同体系。计算层,FlashMLA实现可变长序列解码加速,配合DeepGEMM的FP8动态精度矩阵运算突破算力瓶颈。通信层,DeepEP通过FP8压缩与RDMA(Remote Direct Memory Access)技术打通MoE模型跨节点传输,DualPipe/EPLB则以计算-通信流水线重叠消除分布式训练间隙并实现负载均衡;存储层通过3FS文件系统以SSD(Solid State Drive)+RDMA架构保障数据高效存取。DeepSeek以“单卡算力提升-核心计算加速-通信延迟降低-多卡协作优化-数据流高速供给”为技术脉络,形成软硬协同的优化闭环,最终将千亿参数模型的训练、推理效率推向硬件极限,实现大模型开发成本的大幅压缩。
图表1:DeepSeek开源周成果汇总
注:开源周为2025年2月24-28日,3月1日发布收入成本估算,技术侧不单独列示,测算详见正文
资料来源:deepseek-ai/open-infra-index: Production-tested AI infrastructure tools for efficient AGI development and community-driven innovation,中金公司研究部
Day1:DeepSeek发布为英伟达Hopper GPU设计的MLA解码内核FlashMLA,旨在实现MoE模型推理加速。FlashMLA针对变长序列处理、对话系统等场景深度优化并已投入实际应用。其核心创新包括三大模块:1)分页KV缓存(Paged KV Cache),采用分块管理(块大小64)分配显存,减少每次查询的KV缓存量(约93.3%);2)分块调度与内存优化,融合FlashAttention 23和Cutlass设计理念,优化内存访问模式,减少数据搬运开销,使BF16精度下计算峰值达580 TFLOPS;3)原生稀疏注意力(Native Sparse Attention),通过算法裁剪冗余计算,在降低显存占用的同时增强长上下文处理能力。此外,系统支持动态调度与并行计算和BF16精度计算,兼顾硬件资源利用效率与高吞吐需求。实测显示,在H800 SXM5平台(CUDA 12.6)中,FlashMLA可实现内存受限配置下3000GB/s带宽、计算受限配置下580 TFLOPS的顶尖性能表现(较传统方法提升30%以上)。
Day2:发布DeepEP,为MoE模型和专家并行(EP)设计的专用通信库,支持FP8的低精度通信,实现训练和推理环节的高吞吐、低延迟性能。主要特点包括:1)高效优化的all-to-all通信,提供高吞吐量和低延迟的GPU全互联内核,用于MoE的调度和组合操作,且内核吞吐量高,适用于模型训练和推理预填充任务;2)内部节点和节点间均支持NVLink和RDMA(Remote Direct Memory Access)技术,借助NVLink的高速带宽和RDMA的远程直接内存访问能力,加速数据传输;3)为推理解码提供低延迟内核,针对对延迟敏感的推理解码任务,包含一组纯RDMA实现的低延迟内核,可最小化延迟;4)原生支持FP8低精度运算,配合BF16格式进行组合运算,在保证模型精度的同时,减少计算量;5)灵活的GPU资源控制,实现计算与通信的并行处理。
Day3:发布了DeepGEMM,是专门针对FP8通用矩阵乘法打造的库,支持密集GEMM和MoE GEMM。DeepGEMM采用CUDA 核心的两级累加(提升)机制,解决FP8张量核心累加不精确的问题,为V3/R1训练和推理提供支持,在H800上最高可以实现2.7倍加速。核心优化包括:1)线程束优化,通过操作重叠优化、寄存器计数控制和持久线程专用化,减少计算时间、提高寄存器利用率并解决FP8张量核心累加不精确问题;2)利用Hopper TMA 具有快速异步数据移动等特点,在数据加载存储、多播和描述符预取等方面更加充分运用,提升计算连贯性和效率;3)特殊优化上,包括GPU计算时支持非对齐块大小,让更多的流式多处理器(SM)参与工作以提升硬件资源利用率,采用FFMA(Fused Multiply-Add)和SASS(Shader Assembly)交错提升性能,以及使用栅格化提高L2缓存重用。
图表2:普通GEMM(非分组)在H800上性能最高可以实现2.7倍加速
资料来源:deepseek-ai/DeepGEMM: DeepGEMM: clean and efficient FP8 GEMM kernels with fine-grained scaling,AGI Hunt,中金公司研究部
Day4:DeepSeek 开源三个代码库,分别是DualPipe,一种双向流水线并行算法,用于V3/R1训练中的计算-通信重叠;EPLB,专家并行负载均衡器;Profile-data,公开分享来自训练和推理框架的分析数据。
DualPipe算法:旨在通过重叠计算与通信阶段、减少流水线气泡来提升整体训练性能。DeepSeek-V3训练里,跨节点专家并行引发较高通信开销,使计算与通信比例约为1:1,严重影响训练效率。为解决该问题,DualPipe重叠计算与通信阶段,提升整体训练性能。具体而言,将每个计算块细分为四个组件,即注意力、全对全分发、MLP、全对全组合,其中对于反向计算块中的注意力和MLP进一步拆分为用于输入和用于权重的反向计算。通过精心重新排列这些组件,并手动调整GPU的流式多处理器(SMs)分配给通信和计算的比例,实现计算与通信在前后向块中的重叠执行。DualPipe采用双向流水线调度策略,让微批次从流水线的两端同时输入,使得大部分通信操作能在计算过程中完成,从而减少通信开销和流水线气泡。
图表3:DualPipe采用双向流水线调度,使得大部分通信操作都能被完全重叠
资料来源:deepseek-ai/DualPipe: A bidirectional pipeline parallelism algorithm for computation-communication overlap in V3/R1 training.,中金公司研究部
专家并行负载均衡器(EPLB):解决不同专家负载不均衡的问题。在使用专家并行(EP)技术时,不同专家被分配到不同GPU,由于各专家的负载会因当前工作量不同而产生差异,容易造成GPU负载不均衡,影响计算资源的有效利用和整体计算效率,因此需要EPLB来进行负载均衡。冗余专家策略和组限制专家路由是EPLB解决负载不均衡问题的基本思路。冗余专家策略通过复制高负载专家,为平衡GPU负载提供了更多可调配的资源;组限制专家路由则从数据传输优化的角度,减少节点间通信开销,提升整体性能。层负载均衡和全局负载均衡这两种算法策略,是基于核心策略在不同条件下的具体实现方式。在分层负载均衡策略中,当服务器节点数能被专家组数整除时,先依据组限制专家路由,将专家组均匀分配到节点,确保节点间负载平衡,接着在节点内复制专家,并将复制后的专家分配到GPU,通过专家复制和重新分配来平衡GPU负载;全局负载均衡策略在其他情况下使用,不考虑专家分组,直接在全局复制专家并分配到GPU,同样是利用冗余专家策略,通过大规模的专家复制和分配来应对较大规模的专家并行场景,以实现负载均衡。
图表4:大规模跨节点专家并行(EP)并实现最佳负载平衡
资料来源:知乎DeepSeek官方账号https://zhuanlan.zhihu.com/p/27181462601?utm_medium=socialutm_psn=1879148347039937082utm_source=wechat_sessions_r=0,中金公司研究部
图表5:层次负载均衡策略生成的专家复制和分配计划
资料来源:deepseek-ai/EPLB: Expert Parallelism Load Balancer,中金公司研究部
Profile-data,训练和推理框架的分析数据:展示通信计算重叠策略和低级实现细节。1)训练阶段,训练配置文件数据演示了DualPipe中对一对单独的向前和向后数据块的重叠策略。每个数据块包含4个MoE层。并行配置与DeepSeek-V3预训练设置一致,包括EP64、具有4K序列长度的TP1。2)在预填充阶段,利用两个微批次来重叠计算和多对多通信,同时确保注意力计算负载在两个微批次之间平衡。3)解码阶段,与预填充类似,解码还利用两个微批处理进行重叠计算和多对多通信。但是,与预填充不同的是,解码期间的all-to-all通信不会占用GPU SM,发出RDMA消息后,所有GPU SM都会被释放,系统在计算完成后等待all-to-all通信完成。
图表6:分别展示训练、预填充和解码阶段中计算通信重叠策略。
注:预填充(Prefill)阶段,两个batch计算和通信交错进行,以计算时间来抵销通信开销;解码(Decode)阶段,attention拆成两个阶段,总计五个阶段的流水线实现计算和通信的重叠
资料来源:profile-data/README.md at main · deepseek-ai/profile-data,中金公司研究部
Day5:开源了3FS(Fire-Flyer File System),应对AI训练和推理工作的负载问题的高性能分布式文件系统。它利用现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络,提供共享存储层以简化分布式应用开发。在性能和可用性方面,3FS:1)采用解耦架构,结合数千个SSD的吞吐量和数百个存储节点的网络带宽,实现应用程序以位置无关的方式访问存储资源;2)通过分片查询链式复制协议(CRAQ)实现强一致性,使应用代码逻辑简单且易于验证;3)文件接口具有兼容性,开发了由事务性键值存储(如FoundationDB)支持的无状态元数据服务,无需学习新的存储API。在多样化工作负载方面,1)能将数据分析管道的输出组织成层次目录结构,高效管理数据分析流水线的输出;2)允许跨计算节点随机访问训练样本,无需预取或打乱数据集的需求;3)支持大规模训练的高吞吐量并行检查点;4)提供基于KV Cache的推理,作为基于DRAM缓存的经济高效替代方案,具有高吞吐量和更大容量。
除此之外,DeepSeek还开源了基于DuckDB和3FS的轻量级数据处理框架——Smallpond,具备高性能、易操作、可扩展的特点,它采用无服务架构,部署简单,提供高效SQL查询和数据处理能力,支持分布式数据处理,在多节点集群环境下能更加充分利用资源,可轻松应对 PB 级数据处理场景,满足大数据量存储和处理需求。
图表7:3FS可以实现在180节点集群中的聚合读取吞吐量为6.6 TiB/s;25节点集群中GraySort基准测试的吞吐量为3.66 TiB/分钟;每个客户端节点的 KVCache 查找峰值吞吐量超过40 GiB/s
资料来源:deepseek-ai/3FS: A high-performance distributed file system designed to address the challenges of AI training and inference workloads.,中金公司研究部
DeepSeek成本及算力测算:毛利率水平领先
DeepSeek公开了推理成本框架,Infra优化实现高性价比。DeepSeek在3月1日公开了模型推理效率和成本,其说明在过去24小时中DeepSeek V3和R1推理服务占用节点总和,峰值占用为278个节点(单节点为单台8卡H800服务器),平均占用226.75个节点;实现了608B输入Token处理,以及168B输出Token(包含APP+网页+API)。基于这些计算节点,假设H800服务器2美元/小时的平均租赁价格,总体GPU hours成本是固定的8.7万美元。我们以模型API定价测算收入、GPU hours租赁成本作为考虑的核心成本项,来测算综合毛利率:倘若这些输入/输出Token如果全按照R1的定价,收费是56万美元;而按照V3的定价,收费是30万美元左右,则对应毛利率分别为84.5%/71%,因此综合毛利率应在71-84.5%,这一毛利率在行业中处于领先的水平。
图表8:DeepSeek推理成本框架与算力需求测算(细化测算版)
资料来源:DeepSeek知乎官方文章《DeepSeek-V3 / R1 推理系统概览》https://zhuanlan.zhihu.com/p/27181462601,中金公司研究部
如何评价DeepSeek与其他厂商MaaS服务的利润率对比?上述计算的DeepSeek的毛利率是在理想情况下,所有Token都实现定价并且仅扣除GPU hours成本后的结构,实际情况下这其中很多Token是C端APP和网页消耗,现实中并不收费,因此DeepSeek整体的毛利率会低于这个水平。海外来看,如果也是按照DeepSeek公布的仅扣去GPU Hours的口径来计算毛利率,我们预期OpenAI和Anthropic的API服务在毛利率层面也处于明显的领先水平(也是因为高定价,例如目前o3-mini的定价为R1的2-3倍);而对于其他云厂商,为了达到相比DeepSeek原厂服务更强的稳定性来吸引客户,我们认为其会偏向于提供更多的冗余算力来提供服务,但由于需求的分散其集群负载率也很难达到DeepSeek原厂服务的水平,同时可能底层的优化也不如DeepSeek,进而损失部分毛利率。
如何看待DeepSeek高效推理成本对于AI算力和应用产业的影响?对于推理算力,我们认为AI infra的进步将会提升算力利用效率,推动整个行业的繁荣,这对于未来的推理算力需求影响为正面。我们认为对于未来算力需求计算需要更多关注分子端AI应用Token的持续增长,其来源包括多模态应用、Manus等Agent应用,其相对更高Token消耗量的场景也会激发出更大规模的推理算力需求。对于AI应用,我们认为随着模型推理成本的持续降低,成本对于AI应用的商业化落地已不是瓶颈,更多AI应用的规模商业化还是要看模型能力的进一步迭代以及合适场景的持续打磨,其中2C应用方面我们更看好互联网大厂在产品化方面的进展,2B应用方面我们则更为关注企业服务厂商面向客户具体场景的磨合,2025年我们也期待全球市场更多“爆款”AI应用的出现。
Source
文章来源
本文摘自:2025年3月15日已经发布的《AI智道(7):DeepSeek Infra开源周总结,及算力测算一览》
于钟海 分析员 SAC 执证编号:S0080518070011 SFC CE Ref:BOP246
魏鹳霏 分析员 SAC 执证编号:S0080523060019 SFC CE Ref:BSX734
王之昊 分析员 SAC 执证编号:S0080522050001 SFC CE Ref:BSS168
王倩蕾 分析员 SAC 执证编号:S0080524100004
Legal Disclaimer
法律声明
点击小程序查看报告原文
Abstract
摘要
2025年2月24-28日,DeepSeek进行为期一周的Infra开源周,Infra工程优化能力国内领先。我们就开源周内容进行梳理,并对推理算力及毛利率水平进行测算。
DeepSeek开源周深度适配GPU特性,通过五大Infra核心技术构建大模型-算力全栈协同体系,FP8精度与通信优化为核心。计算层,FlashMLA实现可变长序列解码加速,配合DeepGEMM的FP8动态精度矩阵运算突破算力瓶颈。通信层,DeepEP通过FP8压缩与RDMA(Remote Direct Memory Access)技术打通MoE模型跨节点传输,DualPipe/EPLB则以计算-通信流水线重叠消除分布式训练间隙并实现负载均衡;存储层通过3FS文件系统以SSD(Solid State Drive)+RDMA架构保障数据高效存取。DeepSeek以“单卡算力提升-核心计算加速-通信延迟降低-多卡协作优化-数据流高速供给”为技术脉络,形成软硬协同的优化闭环,最终将千亿参数模型的训练、推理效率推向硬件极限,实现大模型开发成本的大幅压缩。
DeepSeek成本及算力测算:毛利率水平国内领先。DeepSeek在3月1日公开了模型推理效率和成本,我们以模型API定价测算收入、GPU hours租赁成本作为考虑的核心成本项,来测算综合毛利率:倘若这些输入/输出Token全按照R1的定价,收费是56万美元;而按照V3的定价,收费是30万美元左右,则对应毛利率分别为84.5%/71%,因此综合毛利率应在71-84.5%,这一毛利率在行业中处于领先的水平。
Infra优化能力进一步推动大模型平权,Agent等应用有望带来AI应用百花齐放、推理算力需求乐观。1)推理算力侧,我们认为AI infra的进步将会提升算力利用效率,推动整个行业的繁荣,这对于未来的推理算力需求影响为正面;此外,我们认为多模态、Manus等Agent应用有望驱动更大规模的推理算力需求。2)应用侧,我们认为随着模型推理成本的持续降低,推理成本已进入“不敏感”区间,更多AI应用的规模商业化取决于模型能力、工程优化。其中2C应用,我们更看好互联网公司在产品化的沉淀;2B应用,我们则更为关注垂类卡位的企业服务厂商的客户、场景沉淀。
风险
技术进展不及预期,商业化落地不及预期。
DeepSeek开源周:Infra层优化能力行业领先
DeepSeek开源周深度适配GPU特性,通过五大Infra核心技术构建大模型-算力全栈协同体系。计算层,FlashMLA实现可变长序列解码加速,配合DeepGEMM的FP8动态精度矩阵运算突破算力瓶颈。通信层,DeepEP通过FP8压缩与RDMA(Remote Direct Memory Access)技术打通MoE模型跨节点传输,DualPipe/EPLB则以计算-通信流水线重叠消除分布式训练间隙并实现负载均衡;存储层通过3FS文件系统以SSD(Solid State Drive)+RDMA架构保障数据高效存取。DeepSeek以“单卡算力提升-核心计算加速-通信延迟降低-多卡协作优化-数据流高速供给”为技术脉络,形成软硬协同的优化闭环,最终将千亿参数模型的训练、推理效率推向硬件极限,实现大模型开发成本的大幅压缩。
图表1:DeepSeek开源周成果汇总
注:开源周为2025年2月24-28日,3月1日发布收入成本估算,技术侧不单独列示,测算详见正文
资料来源:deepseek-ai/open-infra-index: Production-tested AI infrastructure tools for efficient AGI development and community-driven innovation,中金公司研究部
Day1:DeepSeek发布为英伟达Hopper GPU设计的MLA解码内核FlashMLA,旨在实现MoE模型推理加速。FlashMLA针对变长序列处理、对话系统等场景深度优化并已投入实际应用。其核心创新包括三大模块:1)分页KV缓存(Paged KV Cache),采用分块管理(块大小64)分配显存,减少每次查询的KV缓存量(约93.3%);2)分块调度与内存优化,融合FlashAttention 23和Cutlass设计理念,优化内存访问模式,减少数据搬运开销,使BF16精度下计算峰值达580 TFLOPS;3)原生稀疏注意力(Native Sparse Attention),通过算法裁剪冗余计算,在降低显存占用的同时增强长上下文处理能力。此外,系统支持动态调度与并行计算和BF16精度计算,兼顾硬件资源利用效率与高吞吐需求。实测显示,在H800 SXM5平台(CUDA 12.6)中,FlashMLA可实现内存受限配置下3000GB/s带宽、计算受限配置下580 TFLOPS的顶尖性能表现(较传统方法提升30%以上)。
Day2:发布DeepEP,为MoE模型和专家并行(EP)设计的专用通信库,支持FP8的低精度通信,实现训练和推理环节的高吞吐、低延迟性能。主要特点包括:1)高效优化的all-to-all通信,提供高吞吐量和低延迟的GPU全互联内核,用于MoE的调度和组合操作,且内核吞吐量高,适用于模型训练和推理预填充任务;2)内部节点和节点间均支持NVLink和RDMA(Remote Direct Memory Access)技术,借助NVLink的高速带宽和RDMA的远程直接内存访问能力,加速数据传输;3)为推理解码提供低延迟内核,针对对延迟敏感的推理解码任务,包含一组纯RDMA实现的低延迟内核,可最小化延迟;4)原生支持FP8低精度运算,配合BF16格式进行组合运算,在保证模型精度的同时,减少计算量;5)灵活的GPU资源控制,实现计算与通信的并行处理。
Day3:发布了DeepGEMM,是专门针对FP8通用矩阵乘法打造的库,支持密集GEMM和MoE GEMM。DeepGEMM采用CUDA 核心的两级累加(提升)机制,解决FP8张量核心累加不精确的问题,为V3/R1训练和推理提供支持,在H800上最高可以实现2.7倍加速。核心优化包括:1)线程束优化,通过操作重叠优化、寄存器计数控制和持久线程专用化,减少计算时间、提高寄存器利用率并解决FP8张量核心累加不精确问题;2)利用Hopper TMA 具有快速异步数据移动等特点,在数据加载存储、多播和描述符预取等方面更加充分运用,提升计算连贯性和效率;3)特殊优化上,包括GPU计算时支持非对齐块大小,让更多的流式多处理器(SM)参与工作以提升硬件资源利用率,采用FFMA(Fused Multiply-Add)和SASS(Shader Assembly)交错提升性能,以及使用栅格化提高L2缓存重用。
图表2:普通GEMM(非分组)在H800上性能最高可以实现2.7倍加速
资料来源:deepseek-ai/DeepGEMM: DeepGEMM: clean and efficient FP8 GEMM kernels with fine-grained scaling,AGI Hunt,中金公司研究部
Day4:DeepSeek 开源三个代码库,分别是DualPipe,一种双向流水线并行算法,用于V3/R1训练中的计算-通信重叠;EPLB,专家并行负载均衡器;Profile-data,公开分享来自训练和推理框架的分析数据。
DualPipe算法:旨在通过重叠计算与通信阶段、减少流水线气泡来提升整体训练性能。DeepSeek-V3训练里,跨节点专家并行引发较高通信开销,使计算与通信比例约为1:1,严重影响训练效率。为解决该问题,DualPipe重叠计算与通信阶段,提升整体训练性能。具体而言,将每个计算块细分为四个组件,即注意力、全对全分发、MLP、全对全组合,其中对于反向计算块中的注意力和MLP进一步拆分为用于输入和用于权重的反向计算。通过精心重新排列这些组件,并手动调整GPU的流式多处理器(SMs)分配给通信和计算的比例,实现计算与通信在前后向块中的重叠执行。DualPipe采用双向流水线调度策略,让微批次从流水线的两端同时输入,使得大部分通信操作能在计算过程中完成,从而减少通信开销和流水线气泡。
图表3:DualPipe采用双向流水线调度,使得大部分通信操作都能被完全重叠
资料来源:deepseek-ai/DualPipe: A bidirectional pipeline parallelism algorithm for computation-communication overlap in V3/R1 training.,中金公司研究部
专家并行负载均衡器(EPLB):解决不同专家负载不均衡的问题。在使用专家并行(EP)技术时,不同专家被分配到不同GPU,由于各专家的负载会因当前工作量不同而产生差异,容易造成GPU负载不均衡,影响计算资源的有效利用和整体计算效率,因此需要EPLB来进行负载均衡。冗余专家策略和组限制专家路由是EPLB解决负载不均衡问题的基本思路。冗余专家策略通过复制高负载专家,为平衡GPU负载提供了更多可调配的资源;组限制专家路由则从数据传输优化的角度,减少节点间通信开销,提升整体性能。层负载均衡和全局负载均衡这两种算法策略,是基于核心策略在不同条件下的具体实现方式。在分层负载均衡策略中,当服务器节点数能被专家组数整除时,先依据组限制专家路由,将专家组均匀分配到节点,确保节点间负载平衡,接着在节点内复制专家,并将复制后的专家分配到GPU,通过专家复制和重新分配来平衡GPU负载;全局负载均衡策略在其他情况下使用,不考虑专家分组,直接在全局复制专家并分配到GPU,同样是利用冗余专家策略,通过大规模的专家复制和分配来应对较大规模的专家并行场景,以实现负载均衡。
图表4:大规模跨节点专家并行(EP)并实现最佳负载平衡
资料来源:知乎DeepSeek官方账号https://zhuanlan.zhihu.com/p/27181462601?utm_medium=socialutm_psn=1879148347039937082utm_source=wechat_sessions_r=0,中金公司研究部
图表5:层次负载均衡策略生成的专家复制和分配计划
资料来源:deepseek-ai/EPLB: Expert Parallelism Load Balancer,中金公司研究部
Profile-data,训练和推理框架的分析数据:展示通信计算重叠策略和低级实现细节。1)训练阶段,训练配置文件数据演示了DualPipe中对一对单独的向前和向后数据块的重叠策略。每个数据块包含4个MoE层。并行配置与DeepSeek-V3预训练设置一致,包括EP64、具有4K序列长度的TP1。2)在预填充阶段,利用两个微批次来重叠计算和多对多通信,同时确保注意力计算负载在两个微批次之间平衡。3)解码阶段,与预填充类似,解码还利用两个微批处理进行重叠计算和多对多通信。但是,与预填充不同的是,解码期间的all-to-all通信不会占用GPU SM,发出RDMA消息后,所有GPU SM都会被释放,系统在计算完成后等待all-to-all通信完成。
图表6:分别展示训练、预填充和解码阶段中计算通信重叠策略。
注:预填充(Prefill)阶段,两个batch计算和通信交错进行,以计算时间来抵销通信开销;解码(Decode)阶段,attention拆成两个阶段,总计五个阶段的流水线实现计算和通信的重叠
资料来源:profile-data/README.md at main · deepseek-ai/profile-data,中金公司研究部
Day5:开源了3FS(Fire-Flyer File System),应对AI训练和推理工作的负载问题的高性能分布式文件系统。它利用现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络,提供共享存储层以简化分布式应用开发。在性能和可用性方面,3FS:1)采用解耦架构,结合数千个SSD的吞吐量和数百个存储节点的网络带宽,实现应用程序以位置无关的方式访问存储资源;2)通过分片查询链式复制协议(CRAQ)实现强一致性,使应用代码逻辑简单且易于验证;3)文件接口具有兼容性,开发了由事务性键值存储(如FoundationDB)支持的无状态元数据服务,无需学习新的存储API。在多样化工作负载方面,1)能将数据分析管道的输出组织成层次目录结构,高效管理数据分析流水线的输出;2)允许跨计算节点随机访问训练样本,无需预取或打乱数据集的需求;3)支持大规模训练的高吞吐量并行检查点;4)提供基于KV Cache的推理,作为基于DRAM缓存的经济高效替代方案,具有高吞吐量和更大容量。
除此之外,DeepSeek还开源了基于DuckDB和3FS的轻量级数据处理框架——Smallpond,具备高性能、易操作、可扩展的特点,它采用无服务架构,部署简单,提供高效SQL查询和数据处理能力,支持分布式数据处理,在多节点集群环境下能更加充分利用资源,可轻松应对 PB 级数据处理场景,满足大数据量存储和处理需求。
图表7:3FS可以实现在180节点集群中的聚合读取吞吐量为6.6 TiB/s;25节点集群中GraySort基准测试的吞吐量为3.66 TiB/分钟;每个客户端节点的 KVCache 查找峰值吞吐量超过40 GiB/s
资料来源:deepseek-ai/3FS: A high-performance distributed file system designed to address the challenges of AI training and inference workloads.,中金公司研究部
DeepSeek成本及算力测算:毛利率水平领先
DeepSeek公开了推理成本框架,Infra优化实现高性价比。DeepSeek在3月1日公开了模型推理效率和成本,其说明在过去24小时中DeepSeek V3和R1推理服务占用节点总和,峰值占用为278个节点(单节点为单台8卡H800服务器),平均占用226.75个节点;实现了608B输入Token处理,以及168B输出Token(包含APP+网页+API)。基于这些计算节点,假设H800服务器2美元/小时的平均租赁价格,总体GPU hours成本是固定的8.7万美元。我们以模型API定价测算收入、GPU hours租赁成本作为考虑的核心成本项,来测算综合毛利率:倘若这些输入/输出Token如果全按照R1的定价,收费是56万美元;而按照V3的定价,收费是30万美元左右,则对应毛利率分别为84.5%/71%,因此综合毛利率应在71-84.5%,这一毛利率在行业中处于领先的水平。
图表8:DeepSeek推理成本框架与算力需求测算(细化测算版)
资料来源:DeepSeek知乎官方文章《DeepSeek-V3 / R1 推理系统概览》https://zhuanlan.zhihu.com/p/27181462601,中金公司研究部
如何评价DeepSeek与其他厂商MaaS服务的利润率对比?上述计算的DeepSeek的毛利率是在理想情况下,所有Token都实现定价并且仅扣除GPU hours成本后的结构,实际情况下这其中很多Token是C端APP和网页消耗,现实中并不收费,因此DeepSeek整体的毛利率会低于这个水平。海外来看,如果也是按照DeepSeek公布的仅扣去GPU Hours的口径来计算毛利率,我们预期OpenAI和Anthropic的API服务在毛利率层面也处于明显的领先水平(也是因为高定价,例如目前o3-mini的定价为R1的2-3倍);而对于其他云厂商,为了达到相比DeepSeek原厂服务更强的稳定性来吸引客户,我们认为其会偏向于提供更多的冗余算力来提供服务,但由于需求的分散其集群负载率也很难达到DeepSeek原厂服务的水平,同时可能底层的优化也不如DeepSeek,进而损失部分毛利率。
如何看待DeepSeek高效推理成本对于AI算力和应用产业的影响?对于推理算力,我们认为AI infra的进步将会提升算力利用效率,推动整个行业的繁荣,这对于未来的推理算力需求影响为正面。我们认为对于未来算力需求计算需要更多关注分子端AI应用Token的持续增长,其来源包括多模态应用、Manus等Agent应用,其相对更高Token消耗量的场景也会激发出更大规模的推理算力需求。对于AI应用,我们认为随着模型推理成本的持续降低,成本对于AI应用的商业化落地已不是瓶颈,更多AI应用的规模商业化还是要看模型能力的进一步迭代以及合适场景的持续打磨,其中2C应用方面我们更看好互联网大厂在产品化方面的进展,2B应用方面我们则更为关注企业服务厂商面向客户具体场景的磨合,2025年我们也期待全球市场更多“爆款”AI应用的出现。
Source
文章来源
本文摘自:2025年3月15日已经发布的《AI智道(7):DeepSeek Infra开源周总结,及算力测算一览》
于钟海 分析员 SAC 执证编号:S0080518070011 SFC CE Ref:BOP246
魏鹳霏 分析员 SAC 执证编号:S0080523060019 SFC CE Ref:BSX734
王之昊 分析员 SAC 执证编号:S0080522050001 SFC CE Ref:BSS168
王倩蕾 分析员 SAC 执证编号:S0080524100004
Legal Disclaimer
法律声明