大模型"吞金"时代,CTO们"存力焦虑"怎么解?

智车科技

1周前

拿汽车场景举例,在自动驾驶等模型训练、研发过程中,存储和GPU的关系往往是紧密耦合的,一旦GPU集群出现闲置状态,就会导致极大的资源浪费。...原文标题:大模型"吞金"时代,CTO们"存力焦虑"怎么解。

新眸原创·作者 | 桑明强

当全球科技巨头为AI大模型疯狂加码GPU算力时,一家头部券商公司却公开诉苦:费力搭建的GPU集群,利用率却始终卡在30%,算力空转导致每月仅电费就是一笔不小的开销,核心瓶颈竟然是一块“看不见的短板”:存储带宽。

这并非孤例——某车企自动驾驶团队在迭代模型时发现,因数据读写延迟过高,单次训练周期被迫延长40%,直接拖慢产品落地进度。这些故事背后,揭示了大模型时代最隐秘的真相,存储正成为大模型落地的最大暗礁。

大模型训练场景下,数据集一般以文档、图片、音视频等非结构化数据为主,这些文件通常很小,在几十字节到几百kb级别,但数量庞大,大约几亿到几十亿量级,这就要求存储系统具有强大的元数据管理能力,用来支撑海量小文件的高吞吐。

据爱分析测算,在同等GPU算力规模下,存储性能差异可导致3倍模型训练周期波动。以GPT-4为例,它训练需处理超100PB数据,存储带宽要求600GB/s,相当于每分钟填满45块10TB硬盘,而传统4节点存储集群仅能提供24GB/s带宽,差距达25倍。

在这种背景下,产业界陷入两难困局:既要支持千亿级参数AI大模型、TB级带宽的“暴力吞吐”,又要扛住30年数据留存、11个9可靠性的“马拉松考验”,还要满足国产化和市场的真实需求。

“这中间的挑战其实非常大。”京东云相关负责人告诉《新眸》,一方面,存储厂商需要跟主流芯片厂商以及国产操作系统相互兼容认证;另一方面,还要在全国产化环境里做到高性能、高稳定性和低成本,这背后意味着大量的对接、优化和自主研发工作

这些问题也是眼下很多CTO、CIO焦虑的地方。尽管DeepSeek等模型能力让人振奋,也让外界看到了大模型落地千行百业的可能性,但摆在他们面前的,除了买GPU、堆算力外,还要思考如何从存储端切入,为企业算清楚大模型落地和数字化的“经济账”。

01

GPU空转背后:一场被忽视的存储革命

存储成本就像是房间里的大象,所有人都看见,但没人敢动。据业内人士透露,有的企业光内部存储系统就采购了5套,每一套都需要单独维护,由于这些数据分散在不同系统,管理难度陡增的同时,也为后续数据价值挖掘平添了障碍。

一项调查显示,大模型训练中存储成本占比高达10%-20%,但多数企业仍将其视为“必要损耗”。拿一台L3级别的自动驾驶测试车来讲,平均每天产生60TB的数据,完整测试产生的数百PB数据需要存储30年以上。

存储成本居高不下,是大模型时代的一大痛点,症结在于缺少对数据的有效分层。传统存储方案下,为了保证企业生产活跃度和数据安全,通常需要做到3个副本,这也是导致存储空间利用率低的直接原因,类似问题在互联网、金融、医疗等行业普遍存在——冷数据占用大量资源,却鲜少被访问

更别谈一些特定领域,它们对于存量数据的存储要求更为苛刻。比如政府电子档案要求保存周期为5年甚至更长,公检法司数据要求保存周期至少30年以上。

问题的复杂性在于技术门槛。要知道,大模型训练的本质是海量数据的处理与流动,过程中需要实时处理数百PB级数据,存储系统需同时满足千万级IOPS、TB级带宽、微秒级延迟。相比之下,传统解决方案往往顾此失彼:高端存储阵列性能达标但成本高昂;开源方案虽成本低,却面临稳定性问题。

一定程度上,云海AI存储的出现填补了市场空白。”据京东云相关负责人透露,这款历经京东618、双11等复杂场景打磨的产品,以全自研统一分布式存储引擎为核心,实现4K随机写性能突破千万级IOPS,平均延迟在100微秒级,并通过1.1x副本技术节省整体基础设施成本超30%。

“近几年市场对国产存储的关注度明显提高。”尤其在大模型浪潮下,存储性能已从后台支持系统,跃升为AI生产力核心要素。一种主流观点认为,当参数规模突破千亿量级时,对存储的要求会更高,届时唯有具备弹性扩展能力的分布式存储架构,才能支撑未来3-5年的AI进化需求。

在与多个客户深入交流后,京东云方面发现,除了国产化层面的要求,对海外存储厂商的祛魅逐渐成为行业共识,国外的月亮不一定更圆,这也是云海AI存储为什么能在银行、证券、汽车、零售等领域广泛落地——它既能做到不输海外存储厂商的高性能、高可用性,还在于它是京东100%自研产品,核心技术完全自主可控

02

自主可控:国产存储的“性能逆袭”密码

每一个架构好在哪里、坏在哪里,我们有充足的底气来判断。”京东云相关负责人告诉《新眸》,从2012年开始计算,云海AI存储在京东场景已经实践了超过13年。

作为下一代关键技术,存储是AI基础设施重要一环,也是国产化的重点,尤其对于金融、政务领域来讲。在这个背景下,核心技术是否自主可控将成为关键门槛,相比之下,国外存储厂商的商业化产品虽然在性能上整体领先,但无法作为优先选择;至于国内厂商,则需要验证其技术自主可控能力,以及产品与周边国产化生态软硬件系统的兼容性。

和传统分布式不同,云海分布式存储主要聚焦于AI训练和推理场景,而非仅限于数据处理。由于它采用完全自研的架构,而非基于开源平台,“每一行代码都是自己写的”使得云海在面对大规模数据存储和高性能需求时更具竞争力。事后来看,这是一条艰难但正确的选择。

事实上,除了京东云云海外,这些年国内发力AI存储并不在少数,但最终结果却反响平平,据业内人士透露,有的厂商费了大力气挖人、投入了大量资源,却至今未能推出成熟的产品。

这同时也是互联网厂商自研存储的难点所在,不仅要解决监控组件、数据库组件、工程化要求等第三方依赖问题,针对不同客户需求进行模块化单独输出,还要考虑到业界主流存储架构突变带来的风险性。

背后的考量与权衡不言而喻。回忆起打磨云海AI存储的那段经历,京东云相关负责人坦言中间也经历过很多内部的争论,比如数据保护的技术路线选择上,当时内部就选择覆盖写还是追加写时,讨论过很多次。

覆盖写作为业界主流的技术路径,相对来说开发难度、风险都比较小,但坏处是,在存储故障处理能力、包括故障后响应时延方面非常弱,而且性能也没法做到极致。综合考量下,云海AI存储最终选择了更有难度的追加写技术路径,为了让它有更高的稳定性,团队前后就存储架构优化方面又花了将近一年时间。

03

存力即战力

京东云云海如何改写存储经济账

当全球AI竞赛进入耐力赛阶段,存储价值正在从“后勤保障”升级为“核心战力”。

拿汽车场景举例,在自动驾驶等模型训练、研发过程中,存储和GPU的关系往往是紧密耦合的,一旦GPU集群出现闲置状态,就会导致极大的资源浪费。关于这点,业界有一个经典测算,如果GPU集群出现5%左右的闲置时间,其成本就相当于重建一套分布式存储集群。

云海的实践也验证了这一点——某自动驾驶公司通过存力优化,满足了该企业上百个GPU计算节点在模型训练过程中访问存储数据,并应对计算节点的高并发访问的需求,大大缩短了训练周期;某国有大行基于云海构建存力底座,采用统一分布式存储的方式,既满足大模型训练的海量数据存储需求,还有效降低了成本。

类似的故事也发生在某知名券商。为了支撑业务发展,该券商需要进行系统架构的全面云原生化升级,但问题在于,传统存储架构不够灵活,很难适应“小微化、高频化”的业务新模式,更别谈支撑业务系统快速上线、快速变更。

“这恰恰是云海的独特优势所在。”据京东云方面透露,基于云海分布式存储搭建的统一存储平台,该券商构建了超大规模数据湖,统一管理结构化与非结构化数据,在实现数据高效存储与流动的同时,存储平台还兼容多存储接口类型,真正做到与用户业务系统无缝链接。

荔枝FM内部曾经算过一笔账:4.5亿用户音频数据若沿用传统3副本机制,年存储成本将是一笔巨额开销,而基于京东云自研云海存储系统,综合存储成本直降30%,背后秘密在于京东云独创的冷热数据自动分层机制——热数据保留3副本保障毫秒级响应,冷数据则采用EC低冗余技术(1.1x副本率),磁盘利用率直接提升至90%

值得一提的是,云海这套组合拳还能同步构建跨机架多节点容灾体系,实现每次读写自动多副本备份,支撑荔枝FM4.5亿用户的高品质音频服务零中断。在业内人士看来,大模型竞赛下半场,存力正从幕后走向台前,京东云云海通过性能、成本、自主可控的三重突破,不仅解决了企业的现实痛点,更重新定义了AI基础设施的价值链——存储系统的ROI=性能增益+成本节省+故障止损

国产存储崛起的关键不单单是性能、可靠性的比拼,更需要你站在未来思考。”按照京东云相关负责人的判断,未来通用大模型解决用户所有需求的可能性较低,取而代之的是,将呈现多种应用化大模型根据用户场景并行使用的情况,随着DeepSeek等LLM的应用发展,后续推理的需求将持续走高,预计将远高于训练需求。

事实也的确如此,根据IDC发布的一份报告显示,全球数据将从2018年的33ZB增至2025年的175ZB。而中国的数据总量也在全球首屈一指,调查数据显示,中国数据占全球数据比重正在从2018年的23.4%,发展到2025年的27.8%。

从这个角度来看,有关"存储经济学"的价值重构,已经成为企业AI战略的胜负手。

原文标题 : 大模型"吞金"时代,CTO们"存力焦虑"怎么解?

拿汽车场景举例,在自动驾驶等模型训练、研发过程中,存储和GPU的关系往往是紧密耦合的,一旦GPU集群出现闲置状态,就会导致极大的资源浪费。...原文标题:大模型"吞金"时代,CTO们"存力焦虑"怎么解。

新眸原创·作者 | 桑明强

当全球科技巨头为AI大模型疯狂加码GPU算力时,一家头部券商公司却公开诉苦:费力搭建的GPU集群,利用率却始终卡在30%,算力空转导致每月仅电费就是一笔不小的开销,核心瓶颈竟然是一块“看不见的短板”:存储带宽。

这并非孤例——某车企自动驾驶团队在迭代模型时发现,因数据读写延迟过高,单次训练周期被迫延长40%,直接拖慢产品落地进度。这些故事背后,揭示了大模型时代最隐秘的真相,存储正成为大模型落地的最大暗礁。

大模型训练场景下,数据集一般以文档、图片、音视频等非结构化数据为主,这些文件通常很小,在几十字节到几百kb级别,但数量庞大,大约几亿到几十亿量级,这就要求存储系统具有强大的元数据管理能力,用来支撑海量小文件的高吞吐。

据爱分析测算,在同等GPU算力规模下,存储性能差异可导致3倍模型训练周期波动。以GPT-4为例,它训练需处理超100PB数据,存储带宽要求600GB/s,相当于每分钟填满45块10TB硬盘,而传统4节点存储集群仅能提供24GB/s带宽,差距达25倍。

在这种背景下,产业界陷入两难困局:既要支持千亿级参数AI大模型、TB级带宽的“暴力吞吐”,又要扛住30年数据留存、11个9可靠性的“马拉松考验”,还要满足国产化和市场的真实需求。

“这中间的挑战其实非常大。”京东云相关负责人告诉《新眸》,一方面,存储厂商需要跟主流芯片厂商以及国产操作系统相互兼容认证;另一方面,还要在全国产化环境里做到高性能、高稳定性和低成本,这背后意味着大量的对接、优化和自主研发工作

这些问题也是眼下很多CTO、CIO焦虑的地方。尽管DeepSeek等模型能力让人振奋,也让外界看到了大模型落地千行百业的可能性,但摆在他们面前的,除了买GPU、堆算力外,还要思考如何从存储端切入,为企业算清楚大模型落地和数字化的“经济账”。

01

GPU空转背后:一场被忽视的存储革命

存储成本就像是房间里的大象,所有人都看见,但没人敢动。据业内人士透露,有的企业光内部存储系统就采购了5套,每一套都需要单独维护,由于这些数据分散在不同系统,管理难度陡增的同时,也为后续数据价值挖掘平添了障碍。

一项调查显示,大模型训练中存储成本占比高达10%-20%,但多数企业仍将其视为“必要损耗”。拿一台L3级别的自动驾驶测试车来讲,平均每天产生60TB的数据,完整测试产生的数百PB数据需要存储30年以上。

存储成本居高不下,是大模型时代的一大痛点,症结在于缺少对数据的有效分层。传统存储方案下,为了保证企业生产活跃度和数据安全,通常需要做到3个副本,这也是导致存储空间利用率低的直接原因,类似问题在互联网、金融、医疗等行业普遍存在——冷数据占用大量资源,却鲜少被访问

更别谈一些特定领域,它们对于存量数据的存储要求更为苛刻。比如政府电子档案要求保存周期为5年甚至更长,公检法司数据要求保存周期至少30年以上。

问题的复杂性在于技术门槛。要知道,大模型训练的本质是海量数据的处理与流动,过程中需要实时处理数百PB级数据,存储系统需同时满足千万级IOPS、TB级带宽、微秒级延迟。相比之下,传统解决方案往往顾此失彼:高端存储阵列性能达标但成本高昂;开源方案虽成本低,却面临稳定性问题。

一定程度上,云海AI存储的出现填补了市场空白。”据京东云相关负责人透露,这款历经京东618、双11等复杂场景打磨的产品,以全自研统一分布式存储引擎为核心,实现4K随机写性能突破千万级IOPS,平均延迟在100微秒级,并通过1.1x副本技术节省整体基础设施成本超30%。

“近几年市场对国产存储的关注度明显提高。”尤其在大模型浪潮下,存储性能已从后台支持系统,跃升为AI生产力核心要素。一种主流观点认为,当参数规模突破千亿量级时,对存储的要求会更高,届时唯有具备弹性扩展能力的分布式存储架构,才能支撑未来3-5年的AI进化需求。

在与多个客户深入交流后,京东云方面发现,除了国产化层面的要求,对海外存储厂商的祛魅逐渐成为行业共识,国外的月亮不一定更圆,这也是云海AI存储为什么能在银行、证券、汽车、零售等领域广泛落地——它既能做到不输海外存储厂商的高性能、高可用性,还在于它是京东100%自研产品,核心技术完全自主可控

02

自主可控:国产存储的“性能逆袭”密码

每一个架构好在哪里、坏在哪里,我们有充足的底气来判断。”京东云相关负责人告诉《新眸》,从2012年开始计算,云海AI存储在京东场景已经实践了超过13年。

作为下一代关键技术,存储是AI基础设施重要一环,也是国产化的重点,尤其对于金融、政务领域来讲。在这个背景下,核心技术是否自主可控将成为关键门槛,相比之下,国外存储厂商的商业化产品虽然在性能上整体领先,但无法作为优先选择;至于国内厂商,则需要验证其技术自主可控能力,以及产品与周边国产化生态软硬件系统的兼容性。

和传统分布式不同,云海分布式存储主要聚焦于AI训练和推理场景,而非仅限于数据处理。由于它采用完全自研的架构,而非基于开源平台,“每一行代码都是自己写的”使得云海在面对大规模数据存储和高性能需求时更具竞争力。事后来看,这是一条艰难但正确的选择。

事实上,除了京东云云海外,这些年国内发力AI存储并不在少数,但最终结果却反响平平,据业内人士透露,有的厂商费了大力气挖人、投入了大量资源,却至今未能推出成熟的产品。

这同时也是互联网厂商自研存储的难点所在,不仅要解决监控组件、数据库组件、工程化要求等第三方依赖问题,针对不同客户需求进行模块化单独输出,还要考虑到业界主流存储架构突变带来的风险性。

背后的考量与权衡不言而喻。回忆起打磨云海AI存储的那段经历,京东云相关负责人坦言中间也经历过很多内部的争论,比如数据保护的技术路线选择上,当时内部就选择覆盖写还是追加写时,讨论过很多次。

覆盖写作为业界主流的技术路径,相对来说开发难度、风险都比较小,但坏处是,在存储故障处理能力、包括故障后响应时延方面非常弱,而且性能也没法做到极致。综合考量下,云海AI存储最终选择了更有难度的追加写技术路径,为了让它有更高的稳定性,团队前后就存储架构优化方面又花了将近一年时间。

03

存力即战力

京东云云海如何改写存储经济账

当全球AI竞赛进入耐力赛阶段,存储价值正在从“后勤保障”升级为“核心战力”。

拿汽车场景举例,在自动驾驶等模型训练、研发过程中,存储和GPU的关系往往是紧密耦合的,一旦GPU集群出现闲置状态,就会导致极大的资源浪费。关于这点,业界有一个经典测算,如果GPU集群出现5%左右的闲置时间,其成本就相当于重建一套分布式存储集群。

云海的实践也验证了这一点——某自动驾驶公司通过存力优化,满足了该企业上百个GPU计算节点在模型训练过程中访问存储数据,并应对计算节点的高并发访问的需求,大大缩短了训练周期;某国有大行基于云海构建存力底座,采用统一分布式存储的方式,既满足大模型训练的海量数据存储需求,还有效降低了成本。

类似的故事也发生在某知名券商。为了支撑业务发展,该券商需要进行系统架构的全面云原生化升级,但问题在于,传统存储架构不够灵活,很难适应“小微化、高频化”的业务新模式,更别谈支撑业务系统快速上线、快速变更。

“这恰恰是云海的独特优势所在。”据京东云方面透露,基于云海分布式存储搭建的统一存储平台,该券商构建了超大规模数据湖,统一管理结构化与非结构化数据,在实现数据高效存储与流动的同时,存储平台还兼容多存储接口类型,真正做到与用户业务系统无缝链接。

荔枝FM内部曾经算过一笔账:4.5亿用户音频数据若沿用传统3副本机制,年存储成本将是一笔巨额开销,而基于京东云自研云海存储系统,综合存储成本直降30%,背后秘密在于京东云独创的冷热数据自动分层机制——热数据保留3副本保障毫秒级响应,冷数据则采用EC低冗余技术(1.1x副本率),磁盘利用率直接提升至90%

值得一提的是,云海这套组合拳还能同步构建跨机架多节点容灾体系,实现每次读写自动多副本备份,支撑荔枝FM4.5亿用户的高品质音频服务零中断。在业内人士看来,大模型竞赛下半场,存力正从幕后走向台前,京东云云海通过性能、成本、自主可控的三重突破,不仅解决了企业的现实痛点,更重新定义了AI基础设施的价值链——存储系统的ROI=性能增益+成本节省+故障止损

国产存储崛起的关键不单单是性能、可靠性的比拼,更需要你站在未来思考。”按照京东云相关负责人的判断,未来通用大模型解决用户所有需求的可能性较低,取而代之的是,将呈现多种应用化大模型根据用户场景并行使用的情况,随着DeepSeek等LLM的应用发展,后续推理的需求将持续走高,预计将远高于训练需求。

事实也的确如此,根据IDC发布的一份报告显示,全球数据将从2018年的33ZB增至2025年的175ZB。而中国的数据总量也在全球首屈一指,调查数据显示,中国数据占全球数据比重正在从2018年的23.4%,发展到2025年的27.8%。

从这个角度来看,有关"存储经济学"的价值重构,已经成为企业AI战略的胜负手。

原文标题 : 大模型"吞金"时代,CTO们"存力焦虑"怎么解?

展开
打开“财经头条”阅读更多精彩资讯
APP内打开