中国AI算力突围战:上市公司如何对标英伟达超级计算机?

寻龙秘法

6天前

东西争霸PK的到底是什么

你敢相信,在东大直接硬钢M的时候,东大已经做了全面的部署,现在我们在实际上已经是蓝星领导人,怎么样从实际领导人晋升为名副其实呢?在今天的这个时刻,就要用实际行动,支持东大,那么大G之争最重要的就是最顶级的科技PK在接下来就要全面打响了,东西之争会有哪些地方脚力

1、AI超级计算机

2、航空航天,中国登月,美国登陆火星(毕竟人家当时梦中登过月了)

3、军工,现在更多的是在电子战和网络战

4、稀土资源的制作和占领

篇幅有限,今天主要介绍AI超级计算机

引言:算力争夺战背后的东西方博弈

在ChatGPT掀起全球AI浪潮的三年后,算力已成为国家竞争力的核心指标。英伟达凭借其DGX SuperPOD等AI超级计算机,牢牢掌控着全球90%以上的高端算力市场。然而,随着美国对华芯片禁运层层加码(如H20、MI308等特供芯片被全面禁运),中国科技企业正加速构建自主AI算力体系。在这场东西方算力博弈中,华为昇腾、寒武纪、海光信息等上市公司,正从芯片、软件、网络架构到生态体系,全方位对标甚至局部超越英伟达。


一、硬件突围:从替代到创新

1. GPU/AI芯片:国产替代加速

  • 昇腾910B:能效比突围华为昇腾910B是当前国产AI芯片的标杆。根据鹏城实验室实测,其在千亿参数大模型训练场景下,算力效率达到英伟达H20的83%,功耗降低18% 。昇腾的独特优势在于全栈能力——从Atlas 900集群到MindSpore框架,已支持160多个第三方大模型 

  • 寒武纪思元590:性能直追A100寒武纪的思元590芯片采用MLUarch05架构,实测单卡性能超过英伟达A100的150%-170% 尽管其生态适配仍落后于CUDA,但已在百度等大厂内部测试中展现潜力,部分模型训练周期甚至缩短15% 

  • 海光深算系列:兼容CUDA生态海光信息的深算二号DCU芯片,凭借类CUDA架构设计,实现与英伟达生态的“软兼容”。2024年其毛利率高达65.63%,在科学计算领域已替代部分A100需求 。

2. 液冷技术:能效革命的“中国方案”

英伟达DGX SuperPOD依赖液冷技术实现高密度算力,而中国企业在液冷领域已实现弯道超车:

  • 中科曙光推出全球首个全浸没式液冷服务器,PUE(电源使用效率)低至1.04,比传统风冷节能30% 。

  • 浪潮信息联合英特尔发布全液冷冷板服务器参考设计,支持单机柜功率密度突破100kW,远超英伟达同类产品 。

二、软件生态:从碎片化到一体化

1. 开发框架:自研与开源双轨并行

  • MindSpore vs CUDA华为的MindSpore框架已实现与昇腾芯片深度耦合,支持自动并行和混合精度训练。在自动驾驶场景中,其端到端开发效率比PyTorch+英伟达方案提升40% 。

  • 摩尔线程MUSA:国产CUDA替代摩尔线程的MUSA SDK 4.0.1版本支持跨平台开发,其稀疏矩阵计算性能较上一代提升200%,正在撬动工业仿真等细分市场 。

2. 开源社区:打造中国版NGC

国家超算互联网平台已汇聚6500款算力服务商品,并上线DeepSeek-R1等240款开源大模型,日均API调用超百万次。这种“算力超市+撮合交易”模式,正在复制英伟达NGC目录的成功路径。


三、网络架构:从单点突破到全局优化

1. 高速互联:光模块的隐形战场

中际旭创的800G光模块已批量供货,其1.6T产品支持超算集群间800Gb/s带宽,性能对标英伟达Spectrum-X。而华为的“AI-Native”网络架构,可实现计算与存储资源的动态协同,降低数据传输延迟30%。


2. 算力调度:国家队的降维打击

国家超算互联网平台连接20多个超算中心,实现跨域算力资源柔性调度。其“一键式”算力券分发模式,使得中小企业能以1/10成本调用万亿参数大模型训练资源。这种集中式调度能力,是英伟达分散式生态难以复制的优势。


四、行业应用:从替代到超越

1. 大模型训练:成本与效率的平衡术

百度基于昇腾集群训练的ERNIE 4.0模型,训练成本较英伟达方案降低45%;而腾讯自研的紫霄芯片,在视频处理场景能效比超过英伟达T4芯片40%。


2. 智能制造:专用芯片的突围

海康威视采用寒武纪边缘芯片的智能摄像头,推理延迟降至5毫秒,功耗仅为英伟达Jetson的1/3。在港口无人驾驶领域,经纬恒润的4D毫米波雷达+思元590方案,已实现唐山港20台无人集卡常态化运营。


五、挑战与未来:生态构建是关键

尽管硬件性能快速追赶,但中国AI算力生态仍面临两大短板:

  1. 工具链成熟度:英伟达CUDA拥有250万开发者,而国产框架开发者不足10万,MindSpore等生态仍需加速培育 。

  2. 芯片制造瓶颈:中芯国际14nm工艺虽达95%良率,但相比台积电3nm仍有两代差距,制约国产芯片性能上限 。

未来,两条路径值得关注:

  • 异构计算:华为“鲲鹏+昇腾”组合已实现CPU-GPU协同优化,能效比提升50% 。

  • 存算一体:中科院计算所的启明芯片,能效比达传统架构10倍,或成为下一代突破点 。

结语:自主可控的星辰大海

从寒武纪市值破千亿,到国家超算互联网日均调用超300万次,中国AI算力产业正以“硬件替代-软件重构-生态聚合”的三步走战略,构建自主可控的算力底座。这场与英伟达的竞争,不仅是技术之争,更是生态话语权的争夺。正如科大讯飞刘庆峰所言:“只有在自主可控的平台上,才有真正的中国AI大未来。


东西争霸PK的到底是什么

你敢相信,在东大直接硬钢M的时候,东大已经做了全面的部署,现在我们在实际上已经是蓝星领导人,怎么样从实际领导人晋升为名副其实呢?在今天的这个时刻,就要用实际行动,支持东大,那么大G之争最重要的就是最顶级的科技PK在接下来就要全面打响了,东西之争会有哪些地方脚力

1、AI超级计算机

2、航空航天,中国登月,美国登陆火星(毕竟人家当时梦中登过月了)

3、军工,现在更多的是在电子战和网络战

4、稀土资源的制作和占领

篇幅有限,今天主要介绍AI超级计算机

引言:算力争夺战背后的东西方博弈

在ChatGPT掀起全球AI浪潮的三年后,算力已成为国家竞争力的核心指标。英伟达凭借其DGX SuperPOD等AI超级计算机,牢牢掌控着全球90%以上的高端算力市场。然而,随着美国对华芯片禁运层层加码(如H20、MI308等特供芯片被全面禁运),中国科技企业正加速构建自主AI算力体系。在这场东西方算力博弈中,华为昇腾、寒武纪、海光信息等上市公司,正从芯片、软件、网络架构到生态体系,全方位对标甚至局部超越英伟达。


一、硬件突围:从替代到创新

1. GPU/AI芯片:国产替代加速

  • 昇腾910B:能效比突围华为昇腾910B是当前国产AI芯片的标杆。根据鹏城实验室实测,其在千亿参数大模型训练场景下,算力效率达到英伟达H20的83%,功耗降低18% 。昇腾的独特优势在于全栈能力——从Atlas 900集群到MindSpore框架,已支持160多个第三方大模型 

  • 寒武纪思元590:性能直追A100寒武纪的思元590芯片采用MLUarch05架构,实测单卡性能超过英伟达A100的150%-170% 尽管其生态适配仍落后于CUDA,但已在百度等大厂内部测试中展现潜力,部分模型训练周期甚至缩短15% 

  • 海光深算系列:兼容CUDA生态海光信息的深算二号DCU芯片,凭借类CUDA架构设计,实现与英伟达生态的“软兼容”。2024年其毛利率高达65.63%,在科学计算领域已替代部分A100需求 。

2. 液冷技术:能效革命的“中国方案”

英伟达DGX SuperPOD依赖液冷技术实现高密度算力,而中国企业在液冷领域已实现弯道超车:

  • 中科曙光推出全球首个全浸没式液冷服务器,PUE(电源使用效率)低至1.04,比传统风冷节能30% 。

  • 浪潮信息联合英特尔发布全液冷冷板服务器参考设计,支持单机柜功率密度突破100kW,远超英伟达同类产品 。

二、软件生态:从碎片化到一体化

1. 开发框架:自研与开源双轨并行

  • MindSpore vs CUDA华为的MindSpore框架已实现与昇腾芯片深度耦合,支持自动并行和混合精度训练。在自动驾驶场景中,其端到端开发效率比PyTorch+英伟达方案提升40% 。

  • 摩尔线程MUSA:国产CUDA替代摩尔线程的MUSA SDK 4.0.1版本支持跨平台开发,其稀疏矩阵计算性能较上一代提升200%,正在撬动工业仿真等细分市场 。

2. 开源社区:打造中国版NGC

国家超算互联网平台已汇聚6500款算力服务商品,并上线DeepSeek-R1等240款开源大模型,日均API调用超百万次。这种“算力超市+撮合交易”模式,正在复制英伟达NGC目录的成功路径。


三、网络架构:从单点突破到全局优化

1. 高速互联:光模块的隐形战场

中际旭创的800G光模块已批量供货,其1.6T产品支持超算集群间800Gb/s带宽,性能对标英伟达Spectrum-X。而华为的“AI-Native”网络架构,可实现计算与存储资源的动态协同,降低数据传输延迟30%。


2. 算力调度:国家队的降维打击

国家超算互联网平台连接20多个超算中心,实现跨域算力资源柔性调度。其“一键式”算力券分发模式,使得中小企业能以1/10成本调用万亿参数大模型训练资源。这种集中式调度能力,是英伟达分散式生态难以复制的优势。


四、行业应用:从替代到超越

1. 大模型训练:成本与效率的平衡术

百度基于昇腾集群训练的ERNIE 4.0模型,训练成本较英伟达方案降低45%;而腾讯自研的紫霄芯片,在视频处理场景能效比超过英伟达T4芯片40%。


2. 智能制造:专用芯片的突围

海康威视采用寒武纪边缘芯片的智能摄像头,推理延迟降至5毫秒,功耗仅为英伟达Jetson的1/3。在港口无人驾驶领域,经纬恒润的4D毫米波雷达+思元590方案,已实现唐山港20台无人集卡常态化运营。


五、挑战与未来:生态构建是关键

尽管硬件性能快速追赶,但中国AI算力生态仍面临两大短板:

  1. 工具链成熟度:英伟达CUDA拥有250万开发者,而国产框架开发者不足10万,MindSpore等生态仍需加速培育 。

  2. 芯片制造瓶颈:中芯国际14nm工艺虽达95%良率,但相比台积电3nm仍有两代差距,制约国产芯片性能上限 。

未来,两条路径值得关注:

  • 异构计算:华为“鲲鹏+昇腾”组合已实现CPU-GPU协同优化,能效比提升50% 。

  • 存算一体:中科院计算所的启明芯片,能效比达传统架构10倍,或成为下一代突破点 。

结语:自主可控的星辰大海

从寒武纪市值破千亿,到国家超算互联网日均调用超300万次,中国AI算力产业正以“硬件替代-软件重构-生态聚合”的三步走战略,构建自主可控的算力底座。这场与英伟达的竞争,不仅是技术之争,更是生态话语权的争夺。正如科大讯飞刘庆峰所言:“只有在自主可控的平台上,才有真正的中国AI大未来。


展开
打开“财经头条”阅读更多精彩资讯
APP内打开