在2025年开年,DeepSeek的发布,在全社会造成了轰动。这是因为,DeepSeek通过一系列技术革新,大大降低了生成式AI的研发与使用成本,使得生成式AI有望在近期走入千家万户,从而帮助全社会提升工作效率。2022年,OpenAI开发的ChatGPT被认为是具有革新意义的生成式AI工具,可以帮助用户提升工作效率;在2025年,国产生成式AI——DeepSeek,被认为是比ChatGPT更优的生成式AI工具,在成本、能力和开放性方面均优于ChatGPT,并在一定程度上影响到了金融市场。社会上甚至出现了一种观点,认为DeepSeek能够赋予计算机情感等构成人格的要素,甚至得出计算机很快将统治甚至取代人类的结论。事实上,稍有计算机与数学基础的读者,可以很容易地理解:无论是DeepSeek,还是其他生成式AI,对人类语言的“理解”与“生成”,实际上只是将其通过一定的算法,转化为一串数字(在计算机科学中可称为“向量”),再经过一系列算法转化为输出的内容。在这一过程中,计算机并不会拥有人类独有的“情感”与“人格”等要素,只是解决了一个略微复杂的数学计算问题。显然,将人类语言转化为“向量”,再生成输出的内容,需要非常复杂的计算机算法。如果完全由人类来编写这一算法,是不现实的。因此,工程师们将这些算法简化为一系列矩阵(所谓的“模型”与“参数”)的乘法,让计算机使用暴力穷举法尝试这些矩阵的值(也就是“调参”或“训练”,最终得到发布的“模型”。在得到“模型”后,让计算机基于这一“模型”和用户的输入,得到输出的内容,就是所谓的“推理”。目前,所有的生成式AI,都是基于Google在2017年发布的论文《Attention is All You Need》实现的“Transformer”模型。Transformer模型孵化出了以ChatGPT为代表的一系列生产式AI,但其训练与推理所需要的海量计算资源,令个人用户和一般的企业用户都难以接受。特别地,即使是经济实力雄厚的大型政企用户,也有可能受到复杂的外部环境影响,在采购组建高性能集群的硬件时出现困难。这成为了使用生成式AI帮助全社会提升生产效率的重大障碍。
DeepSeek的出现改变了这一切。在过去的一周里,DeepSeek为开发者公开发布了一系列非常有价值的创新成果。那么,它到底实现了哪些关键创新呢?为了系统解读DeepSeek开源周的贡献与突破,腾讯科技联合腾讯云、鹅厂技术派,特别邀约腾讯云技术专家方天戟在开源周进行到第二天的时候进行了解读。而本文是方天戟基于直播内容,在DeepSeek开源周结束后又补充的开源周后半部分,进行的系统性整理与解读,希望尽可能以通俗的语言呈现这些创新为业界带来的价值与影响。
DeepSeek开源周
开源了哪些重要内容?
DeepSeek选择了2025年2月的最后一周作为“开源周”,公布了FlashMLA(优化语句解析算法),DeepEP(优化多机协作机制),DeepGEMM(提升矩阵乘法效率),DualPipe(压榨计算机资源的手段),EPLB(实现生成不同领域内容)和3FS(高性能存储)。同时,DeepSeek还公开了一些研发过程中的分析数据。我们在文章开头提到过,无论是DeepSeek,ChatGPT,还是其他的生成式AI,本质上都是让计算机进行一系列矩阵运算。那么,想提高生成式AI算法的执行效率,就应当从三个方面着手:缩小矩阵规模,提高运算效率,减少等待时间。在过去精彩的一周里,DeepSeek公布的这些核心技术,都是聚焦在这三个方面。我们知道,生成式AI的输入,一般是人类的自然语言。在Transformer模型中,将自然语言进行编码与分析的机制,就是所谓“Attention”机制——先将每个词编码为512个数字组成的“向量”,再使用Q,K,V三个矩阵对每个词和全文中其他所有词,进行关联分析。显然,随着输入长度的增加,总的计算量会以平方律上升,同时,还需要消耗宝贵的GPU内存,用于保存整句话中每个词的K和V矩阵。FlashMLA针对这一问题的解决思路是,设法把K和V两个矩阵压缩,例如将矩阵中相对过于小的数,以及一部分为0的数去掉,来节约内存,减少计算工作量。进一步地,FlashMLA还针对Nvidia 的H800 GPU进行了优化,考虑到H800卡间通信带宽限制,减少了读写其他卡上数据的需求,避免了卡间通信带宽限制计算性能。在FlashMLA加持下,H800单卡能发挥的FP8计算性能从300T FLOPS提升到了580T FLOPS,并且把内存带宽压榨到了理论极限的90%。那么,如何进一步提升计算的性能呢?几乎所有的AI计算都离不开矩阵乘法。由于矩阵乘法可以分解为多组没有相互依赖关系的重复计算,工程师们定义了GEMM(GEneral Matrix Multiply,通用矩阵乘法)算子,而Nvidia也在cuBLAS和NVBLAS这两种数学库中,基于自身的GPU实现了这一算子的并行运算。可以认为,GEMM是包括Transformer模型在内的所有AI算法的基石,其重要程度堪比动力装置对机械化与工业化体系的意义。DeepSeek对GEMM做了革命性的优化。DeepSeek考虑到Nvidia Hopper系列GPU内部的Tensor Core(专用的矩阵运算电路)可以支持8-bit浮点数计算,但精度不如16-bit和32-bit浮点数,DeepGEMM将中间过程暂存为32-bit浮点数以提升精度,同时计算速度与8bit相差无几。值得注意的是,实现这一运算,需要绕开一切现有的开发库,直接写机器指令实现,其开源行为实际上对Nvidia的“护城河”——CUDA生态,发出了直接的挑战。我们甚至可以认为,DeepGEMM的意义,就如同蒸汽机-内燃机-电动机的迭代驱动历次工业革命那样,会驱使生成式AI技术进入一个普惠大众的时代,从而成为跨时代的AI基石。3、EPLB和DualPipe:驱动工业革命的效率大师社会科学工作者在分析美国崛起的原因时,往往提到20世纪初在美国出现的泰勒管理制度和福特生产流水线这两个概念。在工业生产中,泰勒管理制能让每个工作者充分发挥自己的专长,而福特生产流水线能避免人的工作时间浪费在等待中。EPLB和DualPipe在DeepSeek中起到的作用就类似于泰勒管理制度和福特生产流水线。生成式AI的核心技术之一,是所谓“专家模型”。它的工作原理是,把计算机对自然语言理解的结果输入到描述“专家模型“的矩阵,经过一系列矩阵乘法运算,得到生成的答案。为了让专家模型在通信能力受限的H800 GPU集群上取得更好的效果,DeepSeek使用的是MoE模型,也就是使用多个专注于特定领域的小型专家模型来生成内容——这类似于医院的不同科室,在初步识别患者的问题后让最匹配的专家进行诊疗。在医院中,不同科室有可能会有分工合作,各科室的繁忙程度也可能会有较大差异。那么,如果将密切合作的科室安排在同一楼层,同时,对繁忙的科室,多聘请一些专家坐诊,就可以有效减少患者就诊等待时间。EPLB在设计时,就借鉴了这一思路,将频繁互动的几个专家模型放在同一个GPU,从而减少卡间通信,同时,如果发现某些专家模型调用量显著多于其他专家模型,就多复制几个这些专家模型来扛住并发的计算。而DualPipe的作用则是,借鉴福特生产流水线的改进思路,在训练这些专家模型时,尽量减少流水线各个环节的等待时间(所谓的“流水线气泡”)。它的思路是,让两个任务进行交叉排布。当下一个计算任务在等待通信任务结束的时候,让计算机先执行其他的任务。具体而言,就是把训练过程中,求解方程的环节(所谓的“前向计算”),和验算反馈(所谓的“后向计算”)的环节,共用一条流水线。这样,在求解方程环节的计算任务,等待通信任务完成后才能继续执行的期间,让GPU进行验算反馈环节的计算,反之亦然。DeepSeek在AI大模型训练与推理算法的工程化工作中,引入EPLB和DualPipe,对业界的贡献,可以类比为泰勒管理制度和福特生产流水线对工业生产的贡献,实现了进一步地解放生产力和发展生产力。看过电影《横空出世》的读者们,一定会对“算盘打出原子弹”的情节记忆犹新。在缺乏大型计算机的制约下,我国的科技工作者们将复杂的核物理仿真计算,拆解为可分布式并行计算的任务,动员了数以千计的工作人员,使用算盘完成了多轮仿真计算,最终支撑了原子弹的成功研发。在多轮次的仿真计算中,一项重要的任务就是,将大家计算的结果收集汇总,作为下一轮计算的输入。在AI模型的训练算法中,这一任务被称为“AllReduce”。在DeepSeek开源DeepEP之前,这一任务需要依赖Nvidia开发的NCCL(Nvidia Collective Communications Library,英伟达集合通信库)。DeepEP实际上是对传统的AllReduce做了深度的定制和优化。首先,由于DeepSeek手头的GPU是通信带宽受限的H800,因此,DeepEP设法限制了对卡间通信资源的消耗量,让部分GPU作为中继节点,进行合并处理后,再把合并后的计算结果传输到其他GPU,以避免不必要的通信开销。考虑到GPU在执行方程求解的任务时,如果切换到AllReduce任务,需要重新将指令和数据加载到缓存(Cache),DeepEP还增加了一项机制,让GPU内的一些处理核心(SM,Streaming Multiprocessor)来专门处理这项任务,并动态调整承担AllReduce任务的核心数量。我们可以看出,DeepEP打破了三大壁垒:首先是GPU通信的NVLink网(服务器内部)和RDMA网(服务器之间)的壁垒;其次是GPU内部SM分工的壁垒;最重要的一点是,DeepEP通过直接对硬件编程的方式,打破了Nvidia垄断的集合通信库等技术壁垒。DeepEP与戈壁滩上算盘打出原子弹的科技工作者们一样,是邃密群科的破壁者。计算,网络和存储,是构成计算机系统的三大基础支柱。3FS的开源,也补上了DeepSeek所使用的大型分布式系统的最后一块拼图。以生成式AI为代表的机器学习算法,实质上是海量的矩阵运算。在运算过程中需要经常保存草稿(也就是“Checkpoint”)。数千块GPU卡并行保存Checkpoint数据的时候,对存储子系统的性能提出了严峻的考验。因此,业界出现了所谓的“并行高性能文件系统”,利用多台服务器分担存储数据的任务,也就是分布式存储。分布式系统需要解决的最重要问题之一,就是让系统关键性能,可以随服务器数量的增长,而接近正比例增长,特别是需要避免多个并行任务阻塞在单点。特别地,为了保证关键数据不丢失,需要保证一份数据能够写入多份冗余的存储介质,且数据内容保持一致。目前,业界有LustreFS等开源的并行文件系统,但在性能、高可用与一致性等方面依然有较大的改进空间。DeepSeek研发的3FS(Fire-Flyer File System,萤火虫文件系统)基于软硬件协同的思想,采用RDMA网络和SSD存储盘实现了自己的高性能并行文件系统。由于RDMA网络和SSD存储盘本身就可以通过NVMe协议来协同工作,且RDMA网络可以绕过远端CPU的中断处理,直接读取远端SSD/内存中的数据,3FS能够在180个存储节点构成的集群上,取得6.6TiB/s的吞吐性能,把并行文件系统的吞吐量压榨到了网络吞吐量理论值的80%以上,这是非常了不起的成就。这不禁让我们想起来初唐政治家魏征在《谏太宗十思疏》中的一句话:惧满溢,则思江海下百川。——如果担心存储系统成为瓶颈,就要让它像江海容纳来自众多河川的水一样。

为什么只有DeepSeek做到了?
对机器学习与数学有一定认知的读者很容易理解,DeepSeek在这一周里开源的几项技术,并不是非常难以实现的。那么,为什么只有DeepSeek做到了这些呢?从公开信息可以得知:DeepSeek用于训练的GPU是限制了GPU卡间通信带宽的H800,且数量只有2048张,比业界头部的大型企业有数量级的差距。而部署DeepSeek推理模型所需要的GPU资源数量,可以精简到消费级PC单机可运行的地步。DeepSeek所做的工作,就是将Transformer模型进行优化,减少浪费,使其能够在受限的硬件资源上顺利运行。由于DeepSeek手头的GPU是通信带宽受限的版本,DeepSeek针对这一点的改进就是FlashMLA,EPLB和DeepEP。同时,在DeepGEMM和DualPipe的压榨下,DeepSeek使用了2048张卡实现了万卡集群的训练效果。最后,3FS进一步降低了训练过程中的存储开销。有人可能会问,DeepSeek团队将付出了大量心血的成果,无保留地对全社会公开,这一利他行为的动机是什么呢?我们不妨将视线转向人文社科领域的书海寻求可能的答案。马克思在《关于费尔巴哈的提纲》中指出:“人的本质,是社会关系的总和。”在马克思做出这一论断后,又过了100多年,美国社会学家马斯洛提出,人的需求的最高层次是自我实现的需要,次之的是尊重的需要。几乎与马斯洛同一时代,在风云激荡的东半球,毛泽东主席也在《纪念白求恩》中写道:“我们大家要学习他毫无自私自利之心的精神。从这点出发,就可以变为大有利于人民的人。一个人能力有大小,但只要有这点精神,就是一个高尚的人,一个纯粹的人,一个有道德的人,一个脱离了低级趣味的人,一个有益于人民的人。”我们有理由相信,DeepSeek将自身的工作成果向全社会无偿贡献出来,说明这是一个脱离了短期利益得失和其他低级趣味的团队,是为自我成就和尊重而努力奋斗的团队,是积极回馈社会的团队。DeepSeek站在Transformer的肩膀上,让生成式AI技术得以普惠大众,同时也将自行研发的技术开源回馈社会。如果这样的正向循环得以持续,全社会能够得到的,不仅是基于AI技术的生产力提升,还能够通过这种价值观的传播,让大家更好地为共同的目标团结奋斗,让世界的将来更加美好。