芝能智芯出品
在大模型蓬勃发展的时代,DeepSeek的出现为国产大算力GPU带来新机遇与挑战,壁仞科技最近有一个交流,在这一背景下的整体解决方案、技术创新及生态建设,探讨国产大算力GPU迎接DeepSeek机遇的策略与发展方向,以期为相关领域提供有价值的参考。
Part 1
国产大算力GPU
面临的机遇与挑战
人工智能技术的飞速发展,大模型成为推动各领域创新的核心力量。从《2023大语言模型综合能力测评报告》可以看出,众多大模型如雨后春笋般涌现,涵盖语言、视觉、多模态等多个领域。
大模型的训练对算力提出了极高要求,这为国产大算力GPU的发展创造了广阔的市场空间。
DeepSeek作为大模型落地元年的重要推动力量,其复杂的训练任务和对高性能计算的需求,为国产GPU提供了展示实力的舞台。若能满足这些需求,国产大算力GPU将在人工智能产业中占据更重要的地位,加速产业国产化进程,减少对国外GPU的依赖。
● 大模型落地存在诸多难题,涉及数据、算法和算力多个层面。
◎ 在数据方面,高质量数据的获取与处理至关重要,像GPT3训练所需的300B Token,数据来源广泛且需复杂的筛选、去重和标注策略。
◎ 而在算法层面,单模态到多模态的发展,从LLaMA系列到GPT-4o等,对算法的创新和优化要求极高。
◎ 算力更是大模型训练的瓶颈,超大参数模型(千亿到万亿级别)的训练需要超大GPU集群,如LLaMA3需16000卡H100,这对GPU的单卡算力、集群规模和软件优化效率都提出了前所未有的挑战。
国产大算力GPU不仅要应对大模型训练的通用挑战,还面临着自身发展的特殊困境。国外芯片供应紧张在一定程度上限制了部分依赖国外技术的发展路径,但也为国产GPU提供了市场空缺机遇。
国产GPU在技术成熟度、生态建设等方面与国外巨头仍存在差距。异构算力孤岛问题严重,不同厂商不同型号的GPU之间互联互通难、通信效率低、易用性与兼容性差,这极大地阻碍了大模型异构算力的协同应用,影响了整体算力的发挥。
Part 2
壁仞科技的应对策略与技术创新
● 壁仞科技提出了软硬一体、全栈优化、异构协同、开源开放的万卡集群整体解决方案和智算生态。
◎ 在硬件层面,通过自主研发的壁砺TM10X GPU芯片架构,采用Chiplet技术提升单卡和单机算力,其在2022年MLPerf AI软硬件全球测评中获得世界第一,展现了强大的硬件实力。
◎ 在软件层面,构建了涵盖超大模型框架、训练框架和推理引擎、大模型训练平台等完整的软件体系,支持多种主流深度学习框架如PyTorch、TensorFlow、百度飞桨等,还开发了高性能计算库suDNN/suBLAS和高性能通信库suCCL,实现了硬件与软件的高效协同。
● 针对大模型训推一体平台,壁仞科技实现了弹性扩缩容。
◎ 通过智能调度系统,能够自动根据任务需求调整资源分配,大模型训练任务可自动弹性扩缩容,并与推理任务如DeepSeek进行削峰填谷,使集群使用率保持近100%。
◎ 同时,在千卡集群训练稳定性方面,壁仞科技通过全局监控、自动诊断、平台和框架自动恢复故障等措施,解决了故障定位难、恢复成本高的问题。
◎ 采用三级异步checkpoint技术,实现了低开销、高可靠的断点续训,千卡集群千亿参数自动断点续训小于5分钟,30天连续训练不中断,5天连续训练无故障,大大提高了训练效率和稳定性。
● 壁仞科技针对异构算力孤岛问题,提出了自主原创的异构GPU协同训练方案HGCT。该方案采用三层架构层次设计,具备异构调度、异构通信、异构拆分等功能。
◎ 在技术亮点上,实现了高效协同,通信效率大于98%,端到端混训效率95 - 98%;
◎ 软件易用,原生通信库透明,一行代码适配多种框架;
◎ 硬件兼容,一套统一方案支持多种不同厂商、不同型号的GPU;
◎ 业界首次实现异构GPU GDR通信,通过GDR,数据可通过RDMA +多个链路并发方式直接copy到对方节点GPU Memory,大大提高了通信速度;
◎ 还首次支持4种及以上异构GPU训练同一个大模型,通过合理的异构GPU协同训练拆分策略,根据计算性能和显存约束切分layer,根据计算性能切分batch size,有效解决了协同木桶效应。
壁仞科技积极构建开放的软件生态体系BIRENSUPA,通过软件代码定向开源、提供开发技术手册和示例代码等方式,赋能客户和开发者。
同时,联合产业上下游进行广泛合作,与信通院、北京智源、中国移动、电子四院、上海AILab、智谱AI、百川智能等建立合作关系,共同推动大模型软硬件生态建设,参与智算集群混训工作组并当选组长,为异构GPU协同训练生态的发展发挥了引领作用。
小结
国产大算力GPU在DeepSeek带来的机遇面前,虽面临诸多挑战,但壁仞科技的实践为行业发展提供了宝贵经验。
通过技术创新提升硬件性能和软件效率,突破异构算力瓶颈,构建完善的生态体系,国产大算力GPU正逐步走向成熟。国产大算力GPU应继续加大研发投入,深化产学研合作,加强生态建设,不断提升技术实力和市场竞争力。
原文标题 : 国产大算力GPU在DeepSeek机遇下的发展
芝能智芯出品
在大模型蓬勃发展的时代,DeepSeek的出现为国产大算力GPU带来新机遇与挑战,壁仞科技最近有一个交流,在这一背景下的整体解决方案、技术创新及生态建设,探讨国产大算力GPU迎接DeepSeek机遇的策略与发展方向,以期为相关领域提供有价值的参考。
Part 1
国产大算力GPU
面临的机遇与挑战
人工智能技术的飞速发展,大模型成为推动各领域创新的核心力量。从《2023大语言模型综合能力测评报告》可以看出,众多大模型如雨后春笋般涌现,涵盖语言、视觉、多模态等多个领域。
大模型的训练对算力提出了极高要求,这为国产大算力GPU的发展创造了广阔的市场空间。
DeepSeek作为大模型落地元年的重要推动力量,其复杂的训练任务和对高性能计算的需求,为国产GPU提供了展示实力的舞台。若能满足这些需求,国产大算力GPU将在人工智能产业中占据更重要的地位,加速产业国产化进程,减少对国外GPU的依赖。
● 大模型落地存在诸多难题,涉及数据、算法和算力多个层面。
◎ 在数据方面,高质量数据的获取与处理至关重要,像GPT3训练所需的300B Token,数据来源广泛且需复杂的筛选、去重和标注策略。
◎ 而在算法层面,单模态到多模态的发展,从LLaMA系列到GPT-4o等,对算法的创新和优化要求极高。
◎ 算力更是大模型训练的瓶颈,超大参数模型(千亿到万亿级别)的训练需要超大GPU集群,如LLaMA3需16000卡H100,这对GPU的单卡算力、集群规模和软件优化效率都提出了前所未有的挑战。
国产大算力GPU不仅要应对大模型训练的通用挑战,还面临着自身发展的特殊困境。国外芯片供应紧张在一定程度上限制了部分依赖国外技术的发展路径,但也为国产GPU提供了市场空缺机遇。
国产GPU在技术成熟度、生态建设等方面与国外巨头仍存在差距。异构算力孤岛问题严重,不同厂商不同型号的GPU之间互联互通难、通信效率低、易用性与兼容性差,这极大地阻碍了大模型异构算力的协同应用,影响了整体算力的发挥。
Part 2
壁仞科技的应对策略与技术创新
● 壁仞科技提出了软硬一体、全栈优化、异构协同、开源开放的万卡集群整体解决方案和智算生态。
◎ 在硬件层面,通过自主研发的壁砺TM10X GPU芯片架构,采用Chiplet技术提升单卡和单机算力,其在2022年MLPerf AI软硬件全球测评中获得世界第一,展现了强大的硬件实力。
◎ 在软件层面,构建了涵盖超大模型框架、训练框架和推理引擎、大模型训练平台等完整的软件体系,支持多种主流深度学习框架如PyTorch、TensorFlow、百度飞桨等,还开发了高性能计算库suDNN/suBLAS和高性能通信库suCCL,实现了硬件与软件的高效协同。
● 针对大模型训推一体平台,壁仞科技实现了弹性扩缩容。
◎ 通过智能调度系统,能够自动根据任务需求调整资源分配,大模型训练任务可自动弹性扩缩容,并与推理任务如DeepSeek进行削峰填谷,使集群使用率保持近100%。
◎ 同时,在千卡集群训练稳定性方面,壁仞科技通过全局监控、自动诊断、平台和框架自动恢复故障等措施,解决了故障定位难、恢复成本高的问题。
◎ 采用三级异步checkpoint技术,实现了低开销、高可靠的断点续训,千卡集群千亿参数自动断点续训小于5分钟,30天连续训练不中断,5天连续训练无故障,大大提高了训练效率和稳定性。
● 壁仞科技针对异构算力孤岛问题,提出了自主原创的异构GPU协同训练方案HGCT。该方案采用三层架构层次设计,具备异构调度、异构通信、异构拆分等功能。
◎ 在技术亮点上,实现了高效协同,通信效率大于98%,端到端混训效率95 - 98%;
◎ 软件易用,原生通信库透明,一行代码适配多种框架;
◎ 硬件兼容,一套统一方案支持多种不同厂商、不同型号的GPU;
◎ 业界首次实现异构GPU GDR通信,通过GDR,数据可通过RDMA +多个链路并发方式直接copy到对方节点GPU Memory,大大提高了通信速度;
◎ 还首次支持4种及以上异构GPU训练同一个大模型,通过合理的异构GPU协同训练拆分策略,根据计算性能和显存约束切分layer,根据计算性能切分batch size,有效解决了协同木桶效应。
壁仞科技积极构建开放的软件生态体系BIRENSUPA,通过软件代码定向开源、提供开发技术手册和示例代码等方式,赋能客户和开发者。
同时,联合产业上下游进行广泛合作,与信通院、北京智源、中国移动、电子四院、上海AILab、智谱AI、百川智能等建立合作关系,共同推动大模型软硬件生态建设,参与智算集群混训工作组并当选组长,为异构GPU协同训练生态的发展发挥了引领作用。
小结
国产大算力GPU在DeepSeek带来的机遇面前,虽面临诸多挑战,但壁仞科技的实践为行业发展提供了宝贵经验。
通过技术创新提升硬件性能和软件效率,突破异构算力瓶颈,构建完善的生态体系,国产大算力GPU正逐步走向成熟。国产大算力GPU应继续加大研发投入,深化产学研合作,加强生态建设,不断提升技术实力和市场竞争力。
原文标题 : 国产大算力GPU在DeepSeek机遇下的发展