2025年 7月,英伟达 CEO 黄仁勋在北京一场行业峰会上公开承认:“中国已具备足够算力基础,持续技术限制只会加速本土替代进程。” 这番表态背后,是美国对华 AI 芯片管制政策反复带来的市场变局 —— 从 4 月叫停 H20 芯片出口导致英伟达单季度减记 55 亿美元,到 7 月恢复销售却面临国产芯片抢占近三成市场份额的现实,短短三个月间,中国 AI 产业格局正在发生结构性重塑。在这场变革中,DeepSeek 通过技术创新突破算力桎梏、中科曙光构建开放生态打破垄断、信创芯片加速迭代实现性能追赶,共同编织出一条自主可控的智能计算发展路径。
英伟达在华困境与国产替代加速
“一天一个价,现款现货还要排队。”2025 年 4 月初,北京某 AI 服务器经销商这样描述英伟达 H20 芯片的市场行情。当时,美国政府突然要求 H20 芯片出口需单独申请许可证,引发市场恐慌性抢购,单台配置 8 颗 H20 的服务器价格从 100万元飙升至 140 万元。但好景不长,据英伟达 8-K 文件披露,截至 4 月 27 日,公司因 H20 相关库存和采购承诺减记 55 亿美元,两季度累计损失达 135 亿美元。中国区营收占比从 2024 年的 12.5%(171 亿美元)骤降至 2025 年二季度的 8.3%,市场份额被国产芯片快速侵蚀。
字节跳动的采购策略变化颇具代表性。2025 年该公司计划投入 400 亿元采购 AI 芯片,其中国产芯片占比达 60%(240 亿元),远超英伟达特供版的 160 亿元。这种转向背后,是国产芯片性能的快速提升 —— 华为昇腾 910B 推理效率已接近 H20,而价格仅为后者的 70%;寒武纪思元 590 在图像识别任务中处理速度超越 H20 15%。更深远的影响在于生态层面,截至 2025 年 7 月,华为昇腾云已适配 160 多个大模型,开发者数量突破 80 万,形成与英伟达 CUDA 生态分庭抗礼的态势。黄仁勋在 CNN 采访中无奈承认:“限制政策反而帮助中国建立了自主的 AI 生态,这是我们不愿看到的结果。”
雪上加霜的是,英伟达还面临反垄断调查的压力。2024年 12 月,中国市场监管总局因涉嫌违反《反垄断法》及2020 年收购迈络思时的限制性条件,对英伟达立案调查。根据 2020 年的监管决定,英伟达不得对 GPU 与网络设备进行捆绑销售,需保证与第三方产品的互操作性。但调查发现,部分中国企业反映英伟达在软件更新、技术支持等方面歧视使用国产网络设备的客户。与此同时,法国、欧盟等监管机构也在调查英伟达的反竞争行为,全球范围内的监管压力进一步削弱其市场主导地位。
尽管美国政府在 7 月批准 H20 恢复出口,英伟达也同步推出 RTX Pro 等新款特供芯片,但市场环境已今非昔比。中国《“十四五” 数字经济发展规划》明确要求,2026年数据中心国产芯片使用率需达到 40%,政策驱动下的替代进程不可逆转。某云服务厂商采购负责人表示:“我们现在采用‘国产为主、进口为辅’的策略,新建集群中国产芯片占比超过 50%,既能规避地缘风险,又能降低成本。” 这种理性选择,标志着中国 AI 产业正在从 “被动应对” 转向 “主动布局”。
DeepSeek的精度革命与国产芯片适配潮
2025年 8月 25 日,DeepSeek 在官方公众号发布 V3.1 版本大模型时,用置顶评论特别强调:“UE8M0 FP8 精度架构专为下一代国产芯片设计。” 这一细节揭开了国产大模型与芯片协同进化的新篇章。不同于英伟达 GPU 采用的 E4M3/E5M2 标准 FP8 格式,UE8M0 采用 “无符号位 + 8 位指数 + 0 位尾数” 的创新编码方式,通过牺牲部分小数精度换取更大的数值动态范围,完美适配国产芯片普遍强于整数运算、弱于浮点计算的硬件特性。民生电子研究院测算显示,这种定制化格式可使国产芯片的推理效率平均提升 40%,显存占用降低 50%,彻底改变了此前国产芯片运行主流大模型时 “算力跑不满、显存不够用” 的尴尬局面。
UE8M0格式的落地并非孤例。早在 2025 年 2 月,龙芯中科就联合太初元碁完成 DeepSeek-R1 7B 模型的适配工作,仅用 2 小时便在太初 T100 加速卡上实现本地化部署。搭载龙芯 3A6000 处理器的终端设备,可脱离云端完成文档处理、数据分析等 AI 任务,平均响应速度比依赖云端服务提升 3 倍。截至 8 月,已有 18 家国产 AI 芯片企业宣布支持 DeepSeek 系列模型,形成涵盖华为昇腾、寒武纪、海光信息等头部企业,以及沐曦、壁仞科技等独角兽的完整适配矩阵。其中,浙东南智算中心采用寒武纪思元 590 芯片,成功部署 DeepSeek V3/R1 6710 亿参数满血版推理服务,实测性能达到英伟达 H20 芯片的 85%,而硬件采购成本仅为后者的 60%。
金融领域的实践更凸显这种适配价值。某头部城商行在智能文档处理系统中,采用 “海光 DCU+DeepSeek 模型”的联合方案,实现 OCR 识别准确率 99.2% 的行业新高。压力测试显示,单张海光 DCU 卡在高负载下内存峰值仅 5.7GB,显存占用 10.8GB,稳定性优于同场景下的英伟达 A100。该银行技术负责人在《金融信创 AI 生态实践白皮书 (2025)》中指出:“国产算力与大模型的深度协同,使我们摆脱了对进口芯片的依赖,系统年维护成本降低 42%。” 这种 “软件定义硬件” 的创新模式,正在成为国产 AI 生态突破技术封锁的关键路径。
从单点突破到体系创新
国产算力的崛起并非简单的替代效应,而是建立在核心技术持续突破基础上的体系化创新。在芯片领域,华为昇腾 910C 采用中芯国际 7nm(N+2)制程工艺,拥有 530 亿颗晶体管,单卡半精度浮点(FP16)性能达 1200Tflops,实测运行 6710 亿参数大模型时,推理延迟仅比英伟达 H100 落后 0.03 毫秒,而单位功耗(0.52 TFLOPS/W)却比 H100(0.37 TFLOPS/W)高出 40%,一年可节省电费约 5 万元。寒武纪思元 590 同样采用7nm 制程,支持 FP16、BF16 等主流数据格式,兼容 PyTorch、TensorFlow 框架,在边缘计算场景的算力密度较前代提升 300%。
算法与模型层面的突破更为亮眼。幻方量化旗下的 DEEPSEEK 公司发布的开源模型 DeepSeek-V3,采用混合专家(Mixture-of-Experts)架构,拥有 6710 亿参数,每个词元激活 370 亿参数,在代码生成、数学推理等基准测试中超越多个海外开源模型,性能接近GPT-4。该模型的训练效率尤为突出,在 14.8 万亿词元的数据集上完成预训练仅用 266.4 万 GPU 小时,较同类模型减少 30% 的计算资源消耗。商业化应用也在快速推进,某法律科技公司使用DeepSeek-V3 处理海量法律文档,信息提取效率提升 4 倍;某科技企业的智能客服系统通过该模型优化,客户满意度提高 28 个百分点。
更具战略意义的是算力基础设施的开放生态建设。2025 年 9 月,中科曙光在智博会上联合华为、中兴、浪潮信息、科大讯飞等 20 余家产业链伙伴,发布国内首个 AI 计算开放架构,涵盖硬件接口规范、软件适配标准、算力调度协议三大核心模块。该架构支持多厂商芯片兼容,单集群可容纳数万颗 AI 加速芯片协同工作,峰值算力达每秒 10 的 22 次方次运算,能满足千亿级参数大模型的训练需求。中科曙光总裁历军在发布会上强调:"AI计算的未来在于开放与协同。传统封闭架构不仅限制了技术创新的速度,也推高了企业的应用成本。" 这种开放模式已初见成效,依托该架构建设的 "AI 计算开放架构联合实验室",已在金融风控领域实现跨机构数据协作效率提升 40%,模型准确率突破 95%。
结 语
站在 2025 年的时间节点回望,中国 AI 产业已走过 “卡脖子” 的焦虑期,进入 “体系化创新” 的新阶段。
但挑战依然存在。国家集成电路封测产业链技术创新战略联盟副理事长于燮康指出:“中国先进制程与国际领先水平仍有 3-5 年差距,高端芯片制造能力不足仍是短板。” 如何在保持开放协作的同时,突破核心制造技术,将是下一阶段的关键任务。值得期待的是,随着 AI 计算开放架构联合实验室等平台的运作,以及产学研用协同创新机制的完善,国产 AI 产业正从 “单点突破” 转向 “系统突破”,逐步形成可持续的技术创新能力。
英伟达的经历则成为全球化时代技术竞争的经典案例 —— 试图通过技术封锁维持垄断地位,最终却加速了替代者的崛起。黄仁勋的警告犹在耳边:“永久失去中国市场的风险真实存在。”
DeepSeek的UE8M0 格式证明,通过软件算法创新可弥补硬件性能差距;中科曙光的开放架构表明,生态协同能打破垄断格局;而信创芯片的加速迭代则显示,产业链自主可控已具备现实基础。这三大支柱相互支撑,正在构建一个 “模型 - 芯片 - 系统” 三位一体的国产 AI 生态体系。
一场静悄悄的产业革命正在中国上演。这场革命的最终目标,不仅是摆脱对单一技术来源的依赖,更是要建立一种新的产业发展范式 —— 以创新驱动发展,以开放促进协同,以生态赢得未来。
原文标题 : 国产AI走过算力“焦虑期”
2025年 7月,英伟达 CEO 黄仁勋在北京一场行业峰会上公开承认:“中国已具备足够算力基础,持续技术限制只会加速本土替代进程。” 这番表态背后,是美国对华 AI 芯片管制政策反复带来的市场变局 —— 从 4 月叫停 H20 芯片出口导致英伟达单季度减记 55 亿美元,到 7 月恢复销售却面临国产芯片抢占近三成市场份额的现实,短短三个月间,中国 AI 产业格局正在发生结构性重塑。在这场变革中,DeepSeek 通过技术创新突破算力桎梏、中科曙光构建开放生态打破垄断、信创芯片加速迭代实现性能追赶,共同编织出一条自主可控的智能计算发展路径。
英伟达在华困境与国产替代加速
“一天一个价,现款现货还要排队。”2025 年 4 月初,北京某 AI 服务器经销商这样描述英伟达 H20 芯片的市场行情。当时,美国政府突然要求 H20 芯片出口需单独申请许可证,引发市场恐慌性抢购,单台配置 8 颗 H20 的服务器价格从 100万元飙升至 140 万元。但好景不长,据英伟达 8-K 文件披露,截至 4 月 27 日,公司因 H20 相关库存和采购承诺减记 55 亿美元,两季度累计损失达 135 亿美元。中国区营收占比从 2024 年的 12.5%(171 亿美元)骤降至 2025 年二季度的 8.3%,市场份额被国产芯片快速侵蚀。
字节跳动的采购策略变化颇具代表性。2025 年该公司计划投入 400 亿元采购 AI 芯片,其中国产芯片占比达 60%(240 亿元),远超英伟达特供版的 160 亿元。这种转向背后,是国产芯片性能的快速提升 —— 华为昇腾 910B 推理效率已接近 H20,而价格仅为后者的 70%;寒武纪思元 590 在图像识别任务中处理速度超越 H20 15%。更深远的影响在于生态层面,截至 2025 年 7 月,华为昇腾云已适配 160 多个大模型,开发者数量突破 80 万,形成与英伟达 CUDA 生态分庭抗礼的态势。黄仁勋在 CNN 采访中无奈承认:“限制政策反而帮助中国建立了自主的 AI 生态,这是我们不愿看到的结果。”
雪上加霜的是,英伟达还面临反垄断调查的压力。2024年 12 月,中国市场监管总局因涉嫌违反《反垄断法》及2020 年收购迈络思时的限制性条件,对英伟达立案调查。根据 2020 年的监管决定,英伟达不得对 GPU 与网络设备进行捆绑销售,需保证与第三方产品的互操作性。但调查发现,部分中国企业反映英伟达在软件更新、技术支持等方面歧视使用国产网络设备的客户。与此同时,法国、欧盟等监管机构也在调查英伟达的反竞争行为,全球范围内的监管压力进一步削弱其市场主导地位。
尽管美国政府在 7 月批准 H20 恢复出口,英伟达也同步推出 RTX Pro 等新款特供芯片,但市场环境已今非昔比。中国《“十四五” 数字经济发展规划》明确要求,2026年数据中心国产芯片使用率需达到 40%,政策驱动下的替代进程不可逆转。某云服务厂商采购负责人表示:“我们现在采用‘国产为主、进口为辅’的策略,新建集群中国产芯片占比超过 50%,既能规避地缘风险,又能降低成本。” 这种理性选择,标志着中国 AI 产业正在从 “被动应对” 转向 “主动布局”。
DeepSeek的精度革命与国产芯片适配潮
2025年 8月 25 日,DeepSeek 在官方公众号发布 V3.1 版本大模型时,用置顶评论特别强调:“UE8M0 FP8 精度架构专为下一代国产芯片设计。” 这一细节揭开了国产大模型与芯片协同进化的新篇章。不同于英伟达 GPU 采用的 E4M3/E5M2 标准 FP8 格式,UE8M0 采用 “无符号位 + 8 位指数 + 0 位尾数” 的创新编码方式,通过牺牲部分小数精度换取更大的数值动态范围,完美适配国产芯片普遍强于整数运算、弱于浮点计算的硬件特性。民生电子研究院测算显示,这种定制化格式可使国产芯片的推理效率平均提升 40%,显存占用降低 50%,彻底改变了此前国产芯片运行主流大模型时 “算力跑不满、显存不够用” 的尴尬局面。
UE8M0格式的落地并非孤例。早在 2025 年 2 月,龙芯中科就联合太初元碁完成 DeepSeek-R1 7B 模型的适配工作,仅用 2 小时便在太初 T100 加速卡上实现本地化部署。搭载龙芯 3A6000 处理器的终端设备,可脱离云端完成文档处理、数据分析等 AI 任务,平均响应速度比依赖云端服务提升 3 倍。截至 8 月,已有 18 家国产 AI 芯片企业宣布支持 DeepSeek 系列模型,形成涵盖华为昇腾、寒武纪、海光信息等头部企业,以及沐曦、壁仞科技等独角兽的完整适配矩阵。其中,浙东南智算中心采用寒武纪思元 590 芯片,成功部署 DeepSeek V3/R1 6710 亿参数满血版推理服务,实测性能达到英伟达 H20 芯片的 85%,而硬件采购成本仅为后者的 60%。
金融领域的实践更凸显这种适配价值。某头部城商行在智能文档处理系统中,采用 “海光 DCU+DeepSeek 模型”的联合方案,实现 OCR 识别准确率 99.2% 的行业新高。压力测试显示,单张海光 DCU 卡在高负载下内存峰值仅 5.7GB,显存占用 10.8GB,稳定性优于同场景下的英伟达 A100。该银行技术负责人在《金融信创 AI 生态实践白皮书 (2025)》中指出:“国产算力与大模型的深度协同,使我们摆脱了对进口芯片的依赖,系统年维护成本降低 42%。” 这种 “软件定义硬件” 的创新模式,正在成为国产 AI 生态突破技术封锁的关键路径。
从单点突破到体系创新
国产算力的崛起并非简单的替代效应,而是建立在核心技术持续突破基础上的体系化创新。在芯片领域,华为昇腾 910C 采用中芯国际 7nm(N+2)制程工艺,拥有 530 亿颗晶体管,单卡半精度浮点(FP16)性能达 1200Tflops,实测运行 6710 亿参数大模型时,推理延迟仅比英伟达 H100 落后 0.03 毫秒,而单位功耗(0.52 TFLOPS/W)却比 H100(0.37 TFLOPS/W)高出 40%,一年可节省电费约 5 万元。寒武纪思元 590 同样采用7nm 制程,支持 FP16、BF16 等主流数据格式,兼容 PyTorch、TensorFlow 框架,在边缘计算场景的算力密度较前代提升 300%。
算法与模型层面的突破更为亮眼。幻方量化旗下的 DEEPSEEK 公司发布的开源模型 DeepSeek-V3,采用混合专家(Mixture-of-Experts)架构,拥有 6710 亿参数,每个词元激活 370 亿参数,在代码生成、数学推理等基准测试中超越多个海外开源模型,性能接近GPT-4。该模型的训练效率尤为突出,在 14.8 万亿词元的数据集上完成预训练仅用 266.4 万 GPU 小时,较同类模型减少 30% 的计算资源消耗。商业化应用也在快速推进,某法律科技公司使用DeepSeek-V3 处理海量法律文档,信息提取效率提升 4 倍;某科技企业的智能客服系统通过该模型优化,客户满意度提高 28 个百分点。
更具战略意义的是算力基础设施的开放生态建设。2025 年 9 月,中科曙光在智博会上联合华为、中兴、浪潮信息、科大讯飞等 20 余家产业链伙伴,发布国内首个 AI 计算开放架构,涵盖硬件接口规范、软件适配标准、算力调度协议三大核心模块。该架构支持多厂商芯片兼容,单集群可容纳数万颗 AI 加速芯片协同工作,峰值算力达每秒 10 的 22 次方次运算,能满足千亿级参数大模型的训练需求。中科曙光总裁历军在发布会上强调:"AI计算的未来在于开放与协同。传统封闭架构不仅限制了技术创新的速度,也推高了企业的应用成本。" 这种开放模式已初见成效,依托该架构建设的 "AI 计算开放架构联合实验室",已在金融风控领域实现跨机构数据协作效率提升 40%,模型准确率突破 95%。
结 语
站在 2025 年的时间节点回望,中国 AI 产业已走过 “卡脖子” 的焦虑期,进入 “体系化创新” 的新阶段。
但挑战依然存在。国家集成电路封测产业链技术创新战略联盟副理事长于燮康指出:“中国先进制程与国际领先水平仍有 3-5 年差距,高端芯片制造能力不足仍是短板。” 如何在保持开放协作的同时,突破核心制造技术,将是下一阶段的关键任务。值得期待的是,随着 AI 计算开放架构联合实验室等平台的运作,以及产学研用协同创新机制的完善,国产 AI 产业正从 “单点突破” 转向 “系统突破”,逐步形成可持续的技术创新能力。
英伟达的经历则成为全球化时代技术竞争的经典案例 —— 试图通过技术封锁维持垄断地位,最终却加速了替代者的崛起。黄仁勋的警告犹在耳边:“永久失去中国市场的风险真实存在。”
DeepSeek的UE8M0 格式证明,通过软件算法创新可弥补硬件性能差距;中科曙光的开放架构表明,生态协同能打破垄断格局;而信创芯片的加速迭代则显示,产业链自主可控已具备现实基础。这三大支柱相互支撑,正在构建一个 “模型 - 芯片 - 系统” 三位一体的国产 AI 生态体系。
一场静悄悄的产业革命正在中国上演。这场革命的最终目标,不仅是摆脱对单一技术来源的依赖,更是要建立一种新的产业发展范式 —— 以创新驱动发展,以开放促进协同,以生态赢得未来。
原文标题 : 国产AI走过算力“焦虑期”