助推国产算力高质量发展,北电数智为建设数字中国添砖加瓦

工控网

1周前

在国产算力发展从数量增长转向质量提升的背景下,北电数智通过前进·AI异构计算平台的多重优势,为重塑国产芯片的竞争力、推动数字中国建设添砖加瓦。

目前,我国的智算中心建设正呈现出蓬勃发展的态势。智算中心的建设不再局限于北京、上海、深圳等一线城市,已经扩展至县级地区,全国范围内的算力基础设施建设正在积极推进。

根据相关资料显示,尽管国内算力的覆盖范围广泛,但其利用率却相对较低,整体算力中心的利用率仅为50%。这一现象背后的原因不乏算力中心性能不足、无法满足大模型时代对算力的高需求、数据中心与当地产业需求不匹配等。显然,以算力规模和集群规模作为评价标准的时代已经过去,算力需求已经进入了从数量到质量转变的新时代。这种转变也意味着,计算领域关注点将集中在算力的效率、灵活性以及智能化水平。

QQ20250107-154549.png

北京电子数智科技有限责任公司(以下简称“北电数智”)作为⼀家专注于原创性、颠覆性、引领性科技创新的人工智能科技企业,在算力、算法和数据等方面实现了全栈产品和解决方案布局。

加速单芯片算力

目前我国已量产上市的GPU产品主要针对上一代算法进行设计,对于大模型相关算子的需求满足度尚需进一步完善。因此,必须通过扩展算子库、优化编译器等软件层面的手段,实现对单芯片算力利用率的提升。

北电数智的前进·AI异构计算平台具备多重优化特性,可通过模型量化加速、模型超参数调优、稀疏化推理等模型优化能力,算子融合加速、计算图优化、硬件访存优化等编译优化手段,提升单芯片的计算性能,增强国产算力芯片的自适应性。

加强混元异构集群性能

当前的智能计算中心大多依赖单一芯片制造商提供主要的计算能力,而多芯片混合异构架构将成为未来国产智能计算中心的发展趋势。

北电数智的前进·AI异构计算平台可以通过算子级模型拆分方法优化模型性能;通过基于自动机器学习算法的硬件拟定并执行自动调优策略,自动调整模型的配置和参数,找到在特定芯片下的最佳性能和效果;其框架可以支持大模型分布到多GPU上进行计算,提高模型的训练和推理效率,最终实现让合适的芯片做合适的事。

加大通信能力

在万卡集群时代,通信的重要性与单芯片算力不相上下。通信能力直接决定了大模型训练过程中数据传输的效率。高效、稳定、低延迟的网络对于智算中心的建设和运行至关重要。

北电数智通过打通各厂家的集合通信库来解决不同GPU芯片之间的通信问题,对通信库进行深度适配和优化,通过标准化的分布式通信接口,确保异构集群内的信息交换,且可以通过时间重叠等策略,将计算过程和通信过程互相重叠,减少了通信延迟对整体训练性能的影响。

智能化调度与运维保障智算集群稳定运行

智算集群的稳定性也很重要,实现算力最优解,需要一个高效可靠的智能云管平台,通过实时智能监控来实现分钟级的软硬件故障定位,并实现故障的自动检测和修复。

北电数智前进·AI异构计算平台支持多款国产芯片的广泛纳管,帮助用户实现对不同品牌、类型AI加速卡的统一管理,以确保各类AI芯片的无缝集成和优化利用。广泛的纳管能力也让用户能够根据具体需求,灵活地调整资源配置,优化算力供给满足各类训练推理任务。

前进·AI异构计算平台具有卓越的算力调度能力,可为不同场景提供多样化的调度策略,以精准匹配各类计算任务的不同需求。“潮汐调度”是该平台的一大特色亮点,其可根据计算任务的特性和资源需求的变化动态地分配和回收计算资源,尤其适用于渲染应用等场景,以最大化资源的利用率并减少执行时间;此外,“前进·AI异构计算平台”提供的“推训混布”策略可帮助大模型使用方实现同一算力集群既支持在线推理服务部署任务,又支持离线训练任务,从而显著提高算力资源的利用率,减少资源浪费,大幅降低运营成本。

11月21日,北电数智成功推出了国内首个算力概念验证(PoC)平台,并在北京数字经济算力中心正式启用。该平台依托北电数智的先进计算迭代验证平台——前进·AI异构计算平台,为国产算力集群提供专门的场景评测、适配和验证服务,同时也为场景持有方特定场景应用的开发,提供了多样化的算力适配试验空间,从而实现从基础算力到业务场景驱动的双向链路的无缝对接。目前,北电数智前进·AI异构计算平台已经成功对近⼆⼗家芯⽚企业的产品 ⼗余种芯⽚进行了测试与适配,协助国产算力的性能不断优化提升。

QQ20250107-154636.png

在国产算力发展从数量增长转向质量提升的背景下,北电数智通过前进·AI异构计算平台的多重优势,为重塑国产芯片的竞争力、推动数字中国建设添砖加瓦。

在国产算力发展从数量增长转向质量提升的背景下,北电数智通过前进·AI异构计算平台的多重优势,为重塑国产芯片的竞争力、推动数字中国建设添砖加瓦。

目前,我国的智算中心建设正呈现出蓬勃发展的态势。智算中心的建设不再局限于北京、上海、深圳等一线城市,已经扩展至县级地区,全国范围内的算力基础设施建设正在积极推进。

根据相关资料显示,尽管国内算力的覆盖范围广泛,但其利用率却相对较低,整体算力中心的利用率仅为50%。这一现象背后的原因不乏算力中心性能不足、无法满足大模型时代对算力的高需求、数据中心与当地产业需求不匹配等。显然,以算力规模和集群规模作为评价标准的时代已经过去,算力需求已经进入了从数量到质量转变的新时代。这种转变也意味着,计算领域关注点将集中在算力的效率、灵活性以及智能化水平。

QQ20250107-154549.png

北京电子数智科技有限责任公司(以下简称“北电数智”)作为⼀家专注于原创性、颠覆性、引领性科技创新的人工智能科技企业,在算力、算法和数据等方面实现了全栈产品和解决方案布局。

加速单芯片算力

目前我国已量产上市的GPU产品主要针对上一代算法进行设计,对于大模型相关算子的需求满足度尚需进一步完善。因此,必须通过扩展算子库、优化编译器等软件层面的手段,实现对单芯片算力利用率的提升。

北电数智的前进·AI异构计算平台具备多重优化特性,可通过模型量化加速、模型超参数调优、稀疏化推理等模型优化能力,算子融合加速、计算图优化、硬件访存优化等编译优化手段,提升单芯片的计算性能,增强国产算力芯片的自适应性。

加强混元异构集群性能

当前的智能计算中心大多依赖单一芯片制造商提供主要的计算能力,而多芯片混合异构架构将成为未来国产智能计算中心的发展趋势。

北电数智的前进·AI异构计算平台可以通过算子级模型拆分方法优化模型性能;通过基于自动机器学习算法的硬件拟定并执行自动调优策略,自动调整模型的配置和参数,找到在特定芯片下的最佳性能和效果;其框架可以支持大模型分布到多GPU上进行计算,提高模型的训练和推理效率,最终实现让合适的芯片做合适的事。

加大通信能力

在万卡集群时代,通信的重要性与单芯片算力不相上下。通信能力直接决定了大模型训练过程中数据传输的效率。高效、稳定、低延迟的网络对于智算中心的建设和运行至关重要。

北电数智通过打通各厂家的集合通信库来解决不同GPU芯片之间的通信问题,对通信库进行深度适配和优化,通过标准化的分布式通信接口,确保异构集群内的信息交换,且可以通过时间重叠等策略,将计算过程和通信过程互相重叠,减少了通信延迟对整体训练性能的影响。

智能化调度与运维保障智算集群稳定运行

智算集群的稳定性也很重要,实现算力最优解,需要一个高效可靠的智能云管平台,通过实时智能监控来实现分钟级的软硬件故障定位,并实现故障的自动检测和修复。

北电数智前进·AI异构计算平台支持多款国产芯片的广泛纳管,帮助用户实现对不同品牌、类型AI加速卡的统一管理,以确保各类AI芯片的无缝集成和优化利用。广泛的纳管能力也让用户能够根据具体需求,灵活地调整资源配置,优化算力供给满足各类训练推理任务。

前进·AI异构计算平台具有卓越的算力调度能力,可为不同场景提供多样化的调度策略,以精准匹配各类计算任务的不同需求。“潮汐调度”是该平台的一大特色亮点,其可根据计算任务的特性和资源需求的变化动态地分配和回收计算资源,尤其适用于渲染应用等场景,以最大化资源的利用率并减少执行时间;此外,“前进·AI异构计算平台”提供的“推训混布”策略可帮助大模型使用方实现同一算力集群既支持在线推理服务部署任务,又支持离线训练任务,从而显著提高算力资源的利用率,减少资源浪费,大幅降低运营成本。

11月21日,北电数智成功推出了国内首个算力概念验证(PoC)平台,并在北京数字经济算力中心正式启用。该平台依托北电数智的先进计算迭代验证平台——前进·AI异构计算平台,为国产算力集群提供专门的场景评测、适配和验证服务,同时也为场景持有方特定场景应用的开发,提供了多样化的算力适配试验空间,从而实现从基础算力到业务场景驱动的双向链路的无缝对接。目前,北电数智前进·AI异构计算平台已经成功对近⼆⼗家芯⽚企业的产品 ⼗余种芯⽚进行了测试与适配,协助国产算力的性能不断优化提升。

QQ20250107-154636.png

在国产算力发展从数量增长转向质量提升的背景下,北电数智通过前进·AI异构计算平台的多重优势,为重塑国产芯片的竞争力、推动数字中国建设添砖加瓦。

展开
打开“财经头条”阅读更多精彩资讯
APP内打开