DeepSeek重大发布!DeepEP向公众开放 芯片需求大增

东方财富网

14小时前

虽然美国政府探讨进一步收紧对华出口芯片的限制,可能导致芯片订单激增,但知情人士认为,DeepSeek才是促使订单增加的主要原因。

DeepSeek开源周第二弹!

上周五,DeepSeek宣布连续五天开源五大软件库。今天DeepSeek选择了先在GitHub上线,然后再在官推发布上新通知。该公司今日宣布将DeepEP向公众开放。在宣布后的约20分钟内,DeepEP已在GitHub、微软(MSFT.US)等平台上获得超过1000个Star收藏。

据悉,DeepEP是MoE模型训练和推理的ExpertParallelism通信基础,可实现高效优化的全到全通信,以支持包括FP8在内的低精度计算,适用于现代高性能计算。DeepEP还针对从NVLink到RDMA的非对称带宽转发场景进行了深度优化,不仅提供高吞吐量,还支持流式多处理器数量控制,从而在训练和推理任务中实现高吞吐量性能。

此外,券商中国记者在DeepSeek API开放平台注意到,DeepSeek已重新开放API充值。DeepSeek-Chat模型优惠期结束,调用价格已变更为每百万输入tokens 2元,每百万输出tokens 8元。此前因资源紧张,DeepSeek曾一度停止充值。

DeepEP向公众开放

今天是DeepSeek开源第二天,他们一大早在官推上发布消息,开源DeepEP。

DeepSeek在官推上介绍,很高兴介绍DeepEP第一个用于MoE模型训练和推理的开源EP通信库。其特点包括:高效且优化的全对全通信,通过NVLink和RDMA支持节点内和节点间,用于训练和推理预填充的高吞吐量内核,用于推理解码的低延迟内核,原生FP8调度支持,灵活的GPU资源控制,用于计算通信重叠。

资料显示,使用混合专家(MoE)架构的大型语言模型在计算量没有相应增加的情况下,显著提高了模型容量。然而,这种方法也带来了挑战——尤其是在GPU之间的通信方面。在MoE模型中,对于任何给定的令牌,只有一部分专家处于活动状态,因此在设备之间高效交换数据至关重要。传统的全对全通信方法可能会造成瓶颈,从而增加延迟并导致GPU资源利用不足。在对延迟敏感的设置中,例如实时推理,即使是很小的延迟也会影响整体性能。

专家认为,DeepSeek推出的DeepEP,是一个专为MoE模型和专家并行(EP)设计的通信库。DeepEP解决了在GPU之间调度和聚合令牌所固有的低效率问题。该通信库提供高吞吐量、低延迟的全对全GPU内核(通常称为MoE调度和组合内核),可简化训练和推理过程中的数据交换。值得注意的是,DeepEP支持低精度操作(包括FP8),与DeepSeek-V3论文中详述的技术一致。此版本直接应对了在节点内和节点间环境中扩展MoE架构的挑战。

DeepEP通过自适应配置进一步提高灵活性。用户可以调整正在使用的SM数量等参数,或设置环境变量来管理流量隔离。低延迟内核目前支持的自适应路由有助于在高负载下均匀分配网络流量,从而提高稳健性。

芯片需求大增

据路透社消息,中国企业推出低成本人工智能模型DeepSeek后,显著推高了模型使用的英伟达人工智能芯片在中国市场的需求。路透社引述知情人士的消息说,多家互联网巨头对同款H20芯片的订单激增。

与此同时,中国医疗保健、教育等领域规模较小的企业也开始采购备有DeepSeek人工智能模型和英伟达H20芯片的服务器。在这之前,只有财力较雄厚的金融和电信领域企业会采购人工智能计算系统。

报道说,虽然美国政府探讨进一步收紧对华出口芯片的限制,可能导致芯片订单激增,但知情人士认为,DeepSeek才是促使订单增加的主要原因。

其实,除了DeepSeek之外,阿里Qwen团队今日早间在社交媒体宣布发布新推理模型——深度思考(QwQ)。这是在QWQ-MAX-PREVIEW支持下,一个基于Qwen2.5-Max的推理模型。QwQ可同时支持深度思考和联网搜索,并会展示完整的思维链。Qwen团队称,QWQ-MAX官方版本即将发布,同步会发布Android和iOS应用程序,还会发布更小的可在本地设备部署的模型,如QWQ-32B等。

这些模型的推出,对于算力的需求也将是巨大的。今天,智算龙头公司寒武纪一度大涨近5%,股价突破818元。GPU概念股也再度冲高,北京君正涨逾6%,龙芯中科涨逾3%。

(文章来源:券商中国)

虽然美国政府探讨进一步收紧对华出口芯片的限制,可能导致芯片订单激增,但知情人士认为,DeepSeek才是促使订单增加的主要原因。

DeepSeek开源周第二弹!

上周五,DeepSeek宣布连续五天开源五大软件库。今天DeepSeek选择了先在GitHub上线,然后再在官推发布上新通知。该公司今日宣布将DeepEP向公众开放。在宣布后的约20分钟内,DeepEP已在GitHub、微软(MSFT.US)等平台上获得超过1000个Star收藏。

据悉,DeepEP是MoE模型训练和推理的ExpertParallelism通信基础,可实现高效优化的全到全通信,以支持包括FP8在内的低精度计算,适用于现代高性能计算。DeepEP还针对从NVLink到RDMA的非对称带宽转发场景进行了深度优化,不仅提供高吞吐量,还支持流式多处理器数量控制,从而在训练和推理任务中实现高吞吐量性能。

此外,券商中国记者在DeepSeek API开放平台注意到,DeepSeek已重新开放API充值。DeepSeek-Chat模型优惠期结束,调用价格已变更为每百万输入tokens 2元,每百万输出tokens 8元。此前因资源紧张,DeepSeek曾一度停止充值。

DeepEP向公众开放

今天是DeepSeek开源第二天,他们一大早在官推上发布消息,开源DeepEP。

DeepSeek在官推上介绍,很高兴介绍DeepEP第一个用于MoE模型训练和推理的开源EP通信库。其特点包括:高效且优化的全对全通信,通过NVLink和RDMA支持节点内和节点间,用于训练和推理预填充的高吞吐量内核,用于推理解码的低延迟内核,原生FP8调度支持,灵活的GPU资源控制,用于计算通信重叠。

资料显示,使用混合专家(MoE)架构的大型语言模型在计算量没有相应增加的情况下,显著提高了模型容量。然而,这种方法也带来了挑战——尤其是在GPU之间的通信方面。在MoE模型中,对于任何给定的令牌,只有一部分专家处于活动状态,因此在设备之间高效交换数据至关重要。传统的全对全通信方法可能会造成瓶颈,从而增加延迟并导致GPU资源利用不足。在对延迟敏感的设置中,例如实时推理,即使是很小的延迟也会影响整体性能。

专家认为,DeepSeek推出的DeepEP,是一个专为MoE模型和专家并行(EP)设计的通信库。DeepEP解决了在GPU之间调度和聚合令牌所固有的低效率问题。该通信库提供高吞吐量、低延迟的全对全GPU内核(通常称为MoE调度和组合内核),可简化训练和推理过程中的数据交换。值得注意的是,DeepEP支持低精度操作(包括FP8),与DeepSeek-V3论文中详述的技术一致。此版本直接应对了在节点内和节点间环境中扩展MoE架构的挑战。

DeepEP通过自适应配置进一步提高灵活性。用户可以调整正在使用的SM数量等参数,或设置环境变量来管理流量隔离。低延迟内核目前支持的自适应路由有助于在高负载下均匀分配网络流量,从而提高稳健性。

芯片需求大增

据路透社消息,中国企业推出低成本人工智能模型DeepSeek后,显著推高了模型使用的英伟达人工智能芯片在中国市场的需求。路透社引述知情人士的消息说,多家互联网巨头对同款H20芯片的订单激增。

与此同时,中国医疗保健、教育等领域规模较小的企业也开始采购备有DeepSeek人工智能模型和英伟达H20芯片的服务器。在这之前,只有财力较雄厚的金融和电信领域企业会采购人工智能计算系统。

报道说,虽然美国政府探讨进一步收紧对华出口芯片的限制,可能导致芯片订单激增,但知情人士认为,DeepSeek才是促使订单增加的主要原因。

其实,除了DeepSeek之外,阿里Qwen团队今日早间在社交媒体宣布发布新推理模型——深度思考(QwQ)。这是在QWQ-MAX-PREVIEW支持下,一个基于Qwen2.5-Max的推理模型。QwQ可同时支持深度思考和联网搜索,并会展示完整的思维链。Qwen团队称,QWQ-MAX官方版本即将发布,同步会发布Android和iOS应用程序,还会发布更小的可在本地设备部署的模型,如QWQ-32B等。

这些模型的推出,对于算力的需求也将是巨大的。今天,智算龙头公司寒武纪一度大涨近5%,股价突破818元。GPU概念股也再度冲高,北京君正涨逾6%,龙芯中科涨逾3%。

(文章来源:券商中国)

展开
打开“财经头条”阅读更多精彩资讯
APP内打开