百度点亮自研万卡集群,大模型应用拐点加速到来

钛媒体

1天前

▎作为国内首个正式点亮的自研万卡集群,昆仑芯三代万卡集群不仅解决了百度自身大模型发展的算力问题,也再次为国内大模型产业发展提供了新思路。

作为国内首个正式点亮的自研万卡集群,昆仑芯三代万卡集群不仅解决了百度自身大模型发展的算力问题,也再次为国内大模型产业发展提供了新思路。

就像ChatGPT在2023年年初掀起大模型热潮一样,在刚刚过去的2025年春节期间,一款名为DeepSeek的大模型产品再次搅动全球科技市场,成为2025人工智能戮战的开端。

DeepSeek独特之处在于以更少的GPU芯片和训练成本,实现了堪比全球主流大模型的性能,作为国产大模型的又一明星产品,DeepSeek迅速得到了国内包括百度等主流云厂商的鼎力支持。

百度智能云是在2月3日正式官宣千帆平台正式上架DeepSeek-R1、DeepSeek-V3模型的,价格仅为DeepSeek-V3官方刊例价的3折,DeepSeek-R1官方刊例价的5折,并宣布从上线当日到2月18日24点,模型限时免费使用。模型上线首日,已有超1.5万家客户通过千帆平台进行模型调用。

对DeepSeek在内的国产大模型的支持是百度构建大模型生态的一部分,为企业用户提供更多维强大的模型选择。与此同时,在支撑大模型发展的基石层面,百度智能云在近日官宣成功点亮了昆仑芯三代万卡集群。

作为国内首个正式点亮的自研万卡集群,昆仑芯三代万卡集群不仅解决了百度自身大模型发展的算力问题,也再次为国内大模型产业发展提供了新思路。

百模大战的算力之忧

2024年,“降本”成了新一轮百模大战的关键词。

大模型第一波降价潮出现在2024年年中,大模型主流玩家们纷纷在这一年宣布了新的价格策略。

百度在2024世界人工智能大会期间官宣,文心旗舰款模型ERNIE 3.5、ERNIE 4.0大幅降价,彼时面向企业开放的ERNIE 4.0 Turbo输入输出价格分别低至了0.03元/千Tokens、0.06元/千Tokens,ERNIE Speed、ERNIE Lite两款主力模型继续免费。

降价是为了推动大模型产业落地,而算力紧张是导致大模型训练成本、推理成本,乃至使用成本居高不下的主要原因之一。

要想降低大模型的算力成本,自研芯片就成了一条不可忽视的路径。

实际上,早在云计算成为数字时代新基建、深度学习开始引领人工智能技术变革时,百度就已经在着手自研AI芯片,2018年7月,在2018年百度AI开发者大会上,百度昆仑芯正式问世。

作为百度第一款自研AI芯片,也是国内第一款云端全功能AI芯片,百度昆仑芯基于XPU神经处理器架构,采用三星14nm制程和2.5D I-Cube封装技术,拥有512GB/s内存带宽,并且凭借260TOPS算力成为彼时业内设计算力最高的AI芯片。

相较于当时基于FPGA最新的AI加速器,百度昆仑芯性能提升了近30倍。

在这之后,百度持续在AI芯片领域发力,并在2021年8月的百度世界大会上宣布了基于7nm制程、搭载第二代XPU架构、性能再次提升2-3倍的第二代自研AI芯片——昆仑芯2正式量产。

百度在AI芯片领域的多年积累,为其在大模型时代构建大规模算力集群奠定了基础,而百度在近日官宣点亮的自研万卡集群正是基于百度自研的AI芯片。

那么,什么是万卡集群?

所谓万卡集群是指由一万张及以上计算加速卡组成的高性能计算系统,主要用于训练和推理AI大模型。

构建万卡集群并非上万张GPU卡简单堆叠那么简单,对于算力集群而言,规模越大,故障率往往越高,Meta官方就曾透露,在Meta的大模型Llama3.1训练过程中,其运行的1.6万张GPU训练集群每3小时就会出现一次故障。

然而,由于万卡集群可以将千亿参数模型的训练周期大幅降低,并可以满足AI原生应用快速迭代需求,如今已经成为大模型时代重要的基础设施。

对于百度而言,万卡集群的建成不仅为百度带来了强大、稳定的算力支持,避免外部因素导致的断供风险,确保企业研发和生产的连续性。

更重要的是,随着国产大模型的兴起,万卡集群逐渐从“单任务算力消耗”到“集群效能最大化”过渡,百度自研万卡集群通过对多任务并发、动态资源切分等能力的支持,还可同时训练多个轻量化模型,通过通信优化与容错机制减少算力浪费,实现训练成本指数级下降,从而进一步推动模型成本的下降。

而百度之所以能建成稳定、高效的万卡集群,离不开百度自研的大模型训推一体化基础设施。

万卡集群的技术底座

2024年9月25日,百度智能云事业群总裁沈抖在百度云智大会上指出,“极致规模、极致高密、极致互联让GPU集群完全不同于传统的CPU集群,开启了全新的计算时代。”

大规模GPU集群的构建天然存在高成本、难运维两大挑战,为了应对这两大挑战,作为国内大模型领域头部玩家,百度智能云团队开始重新思考如何构建管理和维护这样庞大的GPU集群,如何屏蔽掉硬件的复杂性,为大模型全流程提供一个简单好用的算力平台。

于是,百舸平台再次升级,百度智能云在百舸3.0版本中开始支持大模型训练和推理,并在百舸4.0版本中进一步解决了多芯混训、高故障率等难题,由此,百舸平台逐渐成长为大模型时代的训推一体化基础设施。

具体而言,围绕大模型落地全过程的算力需求,百舸平台在集群创建、开发实验、模型训练、模型推理四个方面,为企业和开发者提供了提供“多、快、稳、省”的AI基础设施。

在集群创建阶段,企业和开发者最关注的是如何快速将企业业务在集群上跑起来,这其中的资源配置和调试往往需要几个月的时间,而由于百舸平台内置了业界流行的训练工具和框架,基于百舸平台,用户只需要1个小时就可以快速完成集群创建,让业务迅速上线。

在开发实验阶段,针对特定业务目标在大规模训练之前需要测试不同参数和架构对模型的影响,进而制定合适的模型训练策略,保证模型训练的有效性和最终效果,百舸平台在4.0版本升级的可观测大盘可以帮助企业提供直观的决策依据,帮助企业更好地把控项目。

在模型训练阶段,企业和开发者更关注集群的稳定性,在提升稳定性方面,百舸平台提供容错与稳定性机制,避免了由于单卡故障率随规模指数上升而造成的万卡集群有效性大幅下降,保障有效训练率达到98%。

在多芯混训方面,百舸平台展现了强大的资源整合能力,它能够将不同地点、不同规模的异构算力进行统一管理,构建起多芯资源池。

当业务提交工作负载时,百舸平台可自动进行芯片选型,依据集群剩余的芯片资源,选择性价比最高的芯片来运行任务,从而最大化地利用集群的剩余资源,实现高达95%的万卡多芯混合训练效能。

在集群稳定性方面,百度自研的BCCL(百度集合通信库)能够快速自动侦测到导致训练任务异常的节点故障并提供自动化的容错能力,将故障恢复时间从小时级降低到分钟级,极大地提高了集群的可靠性和可用性。

模型训练不仅需要拥有高稳定性,还需要更高效,为此,百舸平台构建了十万卡级别的超大规模HPN高性能网络,针对跨地域通信中的高延迟问题,通过优化的拓扑结构、多路径负载均衡策略及通信策略,实现了几十公里的跨地域通信。

在通信效率上,百舸平台通过先进的拥塞控制算法和集合通信算法策略,实现了完全无阻塞,并通过10ms级别超高精度网络监控,保障了网络的稳定性。

在模型推理方面,企业和开发者更关注的则是速度和成本,速度事关模型使用体验,成本则关于模型的性价比,百舸平台通过架构分离、KV Cashe、负载分配等一系列加速,实现了长文本推理效率翻倍提升。

正是有了这样的大模型训推一体化基础设施,再结合百度自研AI芯片独特的技术优势,百度为大模型自研的万卡集群构建了一个稳定、高效的技术底座。

大模型应用拐点将至

在过去一年里,随着大模型从技术变革走向产业变革,国内各类大模型产品不断涌现。

九章大模型(MathGPT)是好未来教育集团面向教育领域发布的教育大模型,具备多学科的解题、讲题、对话、批改、推荐等能力,目前已经广泛应用到了好未来的智能硬件学而思旗舰学习机及多个业务场景。

Vidu是生数科技与清华大学联合发布的中国首个长时长、高一致性、高动态性视频大模型,发布之初,这个文生视频大模型支持一键生成16秒、1080P分辨率的视频内容,被业界视为“国产Sora”。

这些大模型在集群创建、模型训练、产品迭代过程中,都选用了百度智能云的百舸平台。

基于百舸平台,好未来快速、方便地创建千卡级别的训推任务集群,算力方面,集群以A800、H800作为典型的异构算力,最大支撑16000GPU卡的规模,存储方面,集群适用于大规模深度学习训练场景,可提供亚毫秒级(300us)的时延,服务可用性不低于99.95%。

基于百舸平台,生数科技得以在短时间内完成了Vidu的上线和开放API,同样是得益于百度百舸在大模型训练方面的硬实力,Vidu训练效率大幅提升,其素材渲染加速效率提升3倍,数据拉取效率提升51倍。

此外,无论是上海交通大学这样的顶级科研院校,还是长安汽车这样的头部车企玩家,都已经在基于百舸平台将大模型切实地应用到实际科研、生产场景。

值得注意的是,这些大模型产品已经在百度智能云千帆大模型平台上线。

百度智能云千帆大模型平台的服务与开发平台ModelBuilder不仅为用户提供了高效价比的文心模型及开源模型服务,还为模型效果调优提供了包含数据加工、模型精调、模型评估、模型量化的一站式工具链,目前,这一平台已经帮助客户精调了3.3万个模型、开发了77万个企业应用。

而就在DeepSeek春节期间火出圈后,百度智能云也在2月3日官宣在千帆大模型平台上架DeepSeek-R1、DeepSeek-V3模型。

基于在大模型推理性能优化方向的技术积累,百度智能云团队针对DeepSeek模型MLA结构的计算进行了极致的性能优化,并通过计算、通信、访存不同资源类型算子的有效重叠及高效的Prefill/Decode分离式推理架构等,在核心延迟指标TTFT/TPOT满足SLA的条件下,实现模型吞吐的大幅度提升,进而显著降低模型推理成本。相较而言,通过百度千帆平台调用DeepSeek-R1仅为官方刊例价的5折,调用DeepSeek-V3仅为官方刊例价的3折,使用价格直接降到了全网最低。

花旗银行在近日发布的研报中曾表示,DeepSeek、百度等的中国模型展现出高效和低成本优势,将有助于加速全球AI应用开发,并在全球引发更多技术创新,推动2025年人工智能应用的拐点到来。

此次随着百度自研万卡集群点亮,无论是在算力资源稳定供应上,还是企业算力资源采购和维护成本优化上,都将得到再次提升,百度也得以借助自研万卡集群优化公有云的服务模式,进一步推动大模型应用在2025年涌现。


热点视频推荐

比尔·盖茨:不要低估中国在许多科技领域的巨大创新能力。

点赞关注钛媒体视频号,观看更多精彩视频

*温馨提示:喜欢钛媒体公众号的小伙伴注意啦!根据公众号推送新规,请将钛媒体设为“星标”,这样才能第一时间收到推送消息,已设置的小伙伴还需要重新设置“星标”

-----------华丽的分割线------------

下载钛媒体App,打开科技,打开财富。

万水千山总是情,点个在看行不行

▎作为国内首个正式点亮的自研万卡集群,昆仑芯三代万卡集群不仅解决了百度自身大模型发展的算力问题,也再次为国内大模型产业发展提供了新思路。

作为国内首个正式点亮的自研万卡集群,昆仑芯三代万卡集群不仅解决了百度自身大模型发展的算力问题,也再次为国内大模型产业发展提供了新思路。

就像ChatGPT在2023年年初掀起大模型热潮一样,在刚刚过去的2025年春节期间,一款名为DeepSeek的大模型产品再次搅动全球科技市场,成为2025人工智能戮战的开端。

DeepSeek独特之处在于以更少的GPU芯片和训练成本,实现了堪比全球主流大模型的性能,作为国产大模型的又一明星产品,DeepSeek迅速得到了国内包括百度等主流云厂商的鼎力支持。

百度智能云是在2月3日正式官宣千帆平台正式上架DeepSeek-R1、DeepSeek-V3模型的,价格仅为DeepSeek-V3官方刊例价的3折,DeepSeek-R1官方刊例价的5折,并宣布从上线当日到2月18日24点,模型限时免费使用。模型上线首日,已有超1.5万家客户通过千帆平台进行模型调用。

对DeepSeek在内的国产大模型的支持是百度构建大模型生态的一部分,为企业用户提供更多维强大的模型选择。与此同时,在支撑大模型发展的基石层面,百度智能云在近日官宣成功点亮了昆仑芯三代万卡集群。

作为国内首个正式点亮的自研万卡集群,昆仑芯三代万卡集群不仅解决了百度自身大模型发展的算力问题,也再次为国内大模型产业发展提供了新思路。

百模大战的算力之忧

2024年,“降本”成了新一轮百模大战的关键词。

大模型第一波降价潮出现在2024年年中,大模型主流玩家们纷纷在这一年宣布了新的价格策略。

百度在2024世界人工智能大会期间官宣,文心旗舰款模型ERNIE 3.5、ERNIE 4.0大幅降价,彼时面向企业开放的ERNIE 4.0 Turbo输入输出价格分别低至了0.03元/千Tokens、0.06元/千Tokens,ERNIE Speed、ERNIE Lite两款主力模型继续免费。

降价是为了推动大模型产业落地,而算力紧张是导致大模型训练成本、推理成本,乃至使用成本居高不下的主要原因之一。

要想降低大模型的算力成本,自研芯片就成了一条不可忽视的路径。

实际上,早在云计算成为数字时代新基建、深度学习开始引领人工智能技术变革时,百度就已经在着手自研AI芯片,2018年7月,在2018年百度AI开发者大会上,百度昆仑芯正式问世。

作为百度第一款自研AI芯片,也是国内第一款云端全功能AI芯片,百度昆仑芯基于XPU神经处理器架构,采用三星14nm制程和2.5D I-Cube封装技术,拥有512GB/s内存带宽,并且凭借260TOPS算力成为彼时业内设计算力最高的AI芯片。

相较于当时基于FPGA最新的AI加速器,百度昆仑芯性能提升了近30倍。

在这之后,百度持续在AI芯片领域发力,并在2021年8月的百度世界大会上宣布了基于7nm制程、搭载第二代XPU架构、性能再次提升2-3倍的第二代自研AI芯片——昆仑芯2正式量产。

百度在AI芯片领域的多年积累,为其在大模型时代构建大规模算力集群奠定了基础,而百度在近日官宣点亮的自研万卡集群正是基于百度自研的AI芯片。

那么,什么是万卡集群?

所谓万卡集群是指由一万张及以上计算加速卡组成的高性能计算系统,主要用于训练和推理AI大模型。

构建万卡集群并非上万张GPU卡简单堆叠那么简单,对于算力集群而言,规模越大,故障率往往越高,Meta官方就曾透露,在Meta的大模型Llama3.1训练过程中,其运行的1.6万张GPU训练集群每3小时就会出现一次故障。

然而,由于万卡集群可以将千亿参数模型的训练周期大幅降低,并可以满足AI原生应用快速迭代需求,如今已经成为大模型时代重要的基础设施。

对于百度而言,万卡集群的建成不仅为百度带来了强大、稳定的算力支持,避免外部因素导致的断供风险,确保企业研发和生产的连续性。

更重要的是,随着国产大模型的兴起,万卡集群逐渐从“单任务算力消耗”到“集群效能最大化”过渡,百度自研万卡集群通过对多任务并发、动态资源切分等能力的支持,还可同时训练多个轻量化模型,通过通信优化与容错机制减少算力浪费,实现训练成本指数级下降,从而进一步推动模型成本的下降。

而百度之所以能建成稳定、高效的万卡集群,离不开百度自研的大模型训推一体化基础设施。

万卡集群的技术底座

2024年9月25日,百度智能云事业群总裁沈抖在百度云智大会上指出,“极致规模、极致高密、极致互联让GPU集群完全不同于传统的CPU集群,开启了全新的计算时代。”

大规模GPU集群的构建天然存在高成本、难运维两大挑战,为了应对这两大挑战,作为国内大模型领域头部玩家,百度智能云团队开始重新思考如何构建管理和维护这样庞大的GPU集群,如何屏蔽掉硬件的复杂性,为大模型全流程提供一个简单好用的算力平台。

于是,百舸平台再次升级,百度智能云在百舸3.0版本中开始支持大模型训练和推理,并在百舸4.0版本中进一步解决了多芯混训、高故障率等难题,由此,百舸平台逐渐成长为大模型时代的训推一体化基础设施。

具体而言,围绕大模型落地全过程的算力需求,百舸平台在集群创建、开发实验、模型训练、模型推理四个方面,为企业和开发者提供了提供“多、快、稳、省”的AI基础设施。

在集群创建阶段,企业和开发者最关注的是如何快速将企业业务在集群上跑起来,这其中的资源配置和调试往往需要几个月的时间,而由于百舸平台内置了业界流行的训练工具和框架,基于百舸平台,用户只需要1个小时就可以快速完成集群创建,让业务迅速上线。

在开发实验阶段,针对特定业务目标在大规模训练之前需要测试不同参数和架构对模型的影响,进而制定合适的模型训练策略,保证模型训练的有效性和最终效果,百舸平台在4.0版本升级的可观测大盘可以帮助企业提供直观的决策依据,帮助企业更好地把控项目。

在模型训练阶段,企业和开发者更关注集群的稳定性,在提升稳定性方面,百舸平台提供容错与稳定性机制,避免了由于单卡故障率随规模指数上升而造成的万卡集群有效性大幅下降,保障有效训练率达到98%。

在多芯混训方面,百舸平台展现了强大的资源整合能力,它能够将不同地点、不同规模的异构算力进行统一管理,构建起多芯资源池。

当业务提交工作负载时,百舸平台可自动进行芯片选型,依据集群剩余的芯片资源,选择性价比最高的芯片来运行任务,从而最大化地利用集群的剩余资源,实现高达95%的万卡多芯混合训练效能。

在集群稳定性方面,百度自研的BCCL(百度集合通信库)能够快速自动侦测到导致训练任务异常的节点故障并提供自动化的容错能力,将故障恢复时间从小时级降低到分钟级,极大地提高了集群的可靠性和可用性。

模型训练不仅需要拥有高稳定性,还需要更高效,为此,百舸平台构建了十万卡级别的超大规模HPN高性能网络,针对跨地域通信中的高延迟问题,通过优化的拓扑结构、多路径负载均衡策略及通信策略,实现了几十公里的跨地域通信。

在通信效率上,百舸平台通过先进的拥塞控制算法和集合通信算法策略,实现了完全无阻塞,并通过10ms级别超高精度网络监控,保障了网络的稳定性。

在模型推理方面,企业和开发者更关注的则是速度和成本,速度事关模型使用体验,成本则关于模型的性价比,百舸平台通过架构分离、KV Cashe、负载分配等一系列加速,实现了长文本推理效率翻倍提升。

正是有了这样的大模型训推一体化基础设施,再结合百度自研AI芯片独特的技术优势,百度为大模型自研的万卡集群构建了一个稳定、高效的技术底座。

大模型应用拐点将至

在过去一年里,随着大模型从技术变革走向产业变革,国内各类大模型产品不断涌现。

九章大模型(MathGPT)是好未来教育集团面向教育领域发布的教育大模型,具备多学科的解题、讲题、对话、批改、推荐等能力,目前已经广泛应用到了好未来的智能硬件学而思旗舰学习机及多个业务场景。

Vidu是生数科技与清华大学联合发布的中国首个长时长、高一致性、高动态性视频大模型,发布之初,这个文生视频大模型支持一键生成16秒、1080P分辨率的视频内容,被业界视为“国产Sora”。

这些大模型在集群创建、模型训练、产品迭代过程中,都选用了百度智能云的百舸平台。

基于百舸平台,好未来快速、方便地创建千卡级别的训推任务集群,算力方面,集群以A800、H800作为典型的异构算力,最大支撑16000GPU卡的规模,存储方面,集群适用于大规模深度学习训练场景,可提供亚毫秒级(300us)的时延,服务可用性不低于99.95%。

基于百舸平台,生数科技得以在短时间内完成了Vidu的上线和开放API,同样是得益于百度百舸在大模型训练方面的硬实力,Vidu训练效率大幅提升,其素材渲染加速效率提升3倍,数据拉取效率提升51倍。

此外,无论是上海交通大学这样的顶级科研院校,还是长安汽车这样的头部车企玩家,都已经在基于百舸平台将大模型切实地应用到实际科研、生产场景。

值得注意的是,这些大模型产品已经在百度智能云千帆大模型平台上线。

百度智能云千帆大模型平台的服务与开发平台ModelBuilder不仅为用户提供了高效价比的文心模型及开源模型服务,还为模型效果调优提供了包含数据加工、模型精调、模型评估、模型量化的一站式工具链,目前,这一平台已经帮助客户精调了3.3万个模型、开发了77万个企业应用。

而就在DeepSeek春节期间火出圈后,百度智能云也在2月3日官宣在千帆大模型平台上架DeepSeek-R1、DeepSeek-V3模型。

基于在大模型推理性能优化方向的技术积累,百度智能云团队针对DeepSeek模型MLA结构的计算进行了极致的性能优化,并通过计算、通信、访存不同资源类型算子的有效重叠及高效的Prefill/Decode分离式推理架构等,在核心延迟指标TTFT/TPOT满足SLA的条件下,实现模型吞吐的大幅度提升,进而显著降低模型推理成本。相较而言,通过百度千帆平台调用DeepSeek-R1仅为官方刊例价的5折,调用DeepSeek-V3仅为官方刊例价的3折,使用价格直接降到了全网最低。

花旗银行在近日发布的研报中曾表示,DeepSeek、百度等的中国模型展现出高效和低成本优势,将有助于加速全球AI应用开发,并在全球引发更多技术创新,推动2025年人工智能应用的拐点到来。

此次随着百度自研万卡集群点亮,无论是在算力资源稳定供应上,还是企业算力资源采购和维护成本优化上,都将得到再次提升,百度也得以借助自研万卡集群优化公有云的服务模式,进一步推动大模型应用在2025年涌现。


热点视频推荐

比尔·盖茨:不要低估中国在许多科技领域的巨大创新能力。

点赞关注钛媒体视频号,观看更多精彩视频

*温馨提示:喜欢钛媒体公众号的小伙伴注意啦!根据公众号推送新规,请将钛媒体设为“星标”,这样才能第一时间收到推送消息,已设置的小伙伴还需要重新设置“星标”

-----------华丽的分割线------------

下载钛媒体App,打开科技,打开财富。

万水千山总是情,点个在看行不行

展开
打开“财经头条”阅读更多精彩资讯
APP内打开