美国拟成立DOGE：马斯克可能给超级计算机带来突破性进展

财经头条

提升一亿中产阶级阅读效率

打开

智车科技

3周前

ElonMusk影响下美国可能出现很大的变化，以DOGE为契机，推动超级计算机向更加高效、灵活的方向发展，将为美国在全球科技竞争中占据更大的主动权，并在能源、气候和基础科学等领域取得突破性进展。

芝能智芯出品

在新一代超级计算机的发展中，美国能源部的高性能计算（HPC）项目与私人企业的AI集群建设之间呈现出截然不同的节奏和策略，拟议成立的政府效率部（DOGE）可能对政府主导的大规模计算系统采购产生深远影响。

本文探讨美国现有HPC系统的构建模式与私人企业的高效实践之间的差异，分析其对下一代超级计算机的技术、成本及部署速度的潜在影响，并提出优化超级计算机建设及规划效率的建议。

Part 1

美国现有HPC系统建设的主要问题

美国能源部近年来主导建设了包括Frontier、Aurora和El Capitan在内的三大百亿亿次超级计算机系统。

这些系统以超高性能著称，但在设计、部署和交付中存在如下关键问题：

● 建设周期长：从采购合同签署到系统部署，平均需耗时5至6年，明显慢于私人企业的建设速度。

● 成本效益较低：总预算在20亿美元以下，但与私人企业（如xAI团队）在相似规模下的支出相比，单位性能的成本效益较低。

● 架构复杂性高：由于系统集成了全新架构，HPC代码需要进行广泛移植，增加了非经常性工程（NRE）支出。

以xAI团队建设的Colossus系统为例，其在122天内完成了100,000 GPU的集群部署，远超传统HPC系统。其优势主要体现在快速部署、大规模扩展性和高效成本控制。

高度集成的液冷Supermicro节点、全新互连架构（如400GbE NVIDIABlueField-3 DPU）显著缩短了部署时间。Colossus目标在一年内扩展至200,000 GPU，与现有三大HPC系统的总和相当。私人企业采用灵活的采购策略和现成硬件，显著降低了单位性能成本。

政府效率部的成立（DOGE的潜在影响），或将重新审视政府支出的优先级和效率。如果将此思路应用于HPC系统建设，可能会对现有模式带来巨大变化，加速部署节奏、提升成本效益和简化系统复杂性。

DOGE可能要求能源部大幅缩短系统交付时间，以匹配私人企业的速度，政府需要通过更精准的预算管理，实现单位性能成本的优化，减少对全新架构的依赖，从而降低非经常性工程支出。

私人企业的AI集群在规模和速度上占优，但其在高精度计算能力和互连架构上的适配性仍面临不足。当前的HPC系统多基于FP64计算精度，而AI集群则倾向于混合精度算法。如何在精度需求和性能之间找到平衡点，是未来超级计算机设计中的一大挑战。

Part 2

优化HPC系统建设流程

针对现有超级计算机部署周期过长的问题，可以缩短采购和审批时间、采用模块化设计和引入私人企业参与。通过减少冗长的行政流程，将部署周期缩短至2至3年。

通过模块化架构简化系统集成过程，降低非经常性工程复杂性。吸取xAI团队的实践经验，与私人企业合作开发更高效的解决方案。

当前AI集群的互连性能已显著优于HPC系统，建议政府在未来的超级计算机规划中，采用新型互连协议，引入如400GbE的高速互连技术，确保计算节点间的高效通信。

关注DPU的集成，将类似NVIDIA BlueField-3 DPU的网络处理单元应用于HPC系统，优化数据流管理。为降低超级计算机代码移植成本，建议在未来系统中统一软件工具链和采用开放标准，开发支持多平台的统一工具链，简化代码的迁移和调试过程。推动与AMD、Intel和NVIDIA等主要厂商的合作，制定兼容多架构的统一标准。

DOGE若介入HPC系统建设，应在快速部署与长期价值之间寻找平衡点。减少系统初期部署中非必要的压力测试，将更多资源用于科学研究。

根据实际需求灵活调整预算和资源分配，确保资金效率最大化。美国的HPC系统和私人企业的AI集群建设模式各有优劣，未来的超级计算机发展需要吸取双方的成功经验，找到速度、成本和技术复杂性之间的最佳平衡点。

DOGE的成立为政府系统优化提供了契机，但其在实施过程中需要谨慎权衡效率与科学价值，避免因过度追求速度而牺牲长期研究成果的可能性。

小结

Elon Musk影响下美国可能出现很大的变化，以DOGE为契机，推动超级计算机向更加高效、灵活的方向发展，将为美国在全球科技竞争中占据更大的主动权，并在能源、气候和基础科学等领域取得突破性进展。

原文标题 : 美国拟成立DOGE：马斯克可能给下一代超级计算机带来突破性进展