新华财经上海7月21日电(记者董雪)近日,上海人工智能实验室发布DeepLink超大规模跨域混训技术方案,支持千公里多智算中心跨域长稳混训千亿参数大模型,例如跨越1500公里连接上海和济南之间的智算中心,实现北京、上海与贵州等多地智算中心互联和大模型混训等。
上海人工智能实验室介绍,随着人工智能研究及产业应用深化,算力需求持续增长,但国内的智算中心存在建设分散、采购芯片代次差异大、算力资源碎片化等情况,难以灵活、低成本的获取大算力。
上海人工智能实验室攻克了大规模跨域异构集群调度、高性能通信协议整合、高可靠容错机制设计等技术难题,推出DeepLink超大规模跨域混训技术方案,以保障跨域智算集群的大模型长稳训练。
针对远距离跨域混训存在的数据同步和稳定性难题,这一技术方案采用“3D并行+PS”架构,将超大规模任务分发到各个智算中心,通过算法换通信的方式减轻网络负担,为数据传输提供更宽松的时间窗口,普通专线即可满足通信带宽的要求。同时,在异地训练中,确保即使某个智算中心的节点发生故障也不影响整体训练。
针对不同硬件显存容量和通信带宽参差不齐导致的异构混训效率低下难题,这一技术方案提出改进异构流水线并行策略,采用自研分布式并行框架动态调节不同硬件的任务量,解决异构芯片差异性带来的负载均衡和计算阻塞问题。联合团队基于现有通信协议构建适配层,成功突破了异构芯片互联效率低下的瓶颈。
目前,上海人工智能实验室DeepLink开放计算体系已深度集成至联通、电信、商汤、仪电等智算平台,实现“1个平台+N种芯片+X个地域”稳定运行。
编辑:高二山
声明:新华财经(中国金融信息网)为新华社承建的国家金融信息平台。任何情况下,本平台所发布的信息均不构成投资建议。如有问题,请联系客服:400-6123115
新华财经上海7月21日电(记者董雪)近日,上海人工智能实验室发布DeepLink超大规模跨域混训技术方案,支持千公里多智算中心跨域长稳混训千亿参数大模型,例如跨越1500公里连接上海和济南之间的智算中心,实现北京、上海与贵州等多地智算中心互联和大模型混训等。
上海人工智能实验室介绍,随着人工智能研究及产业应用深化,算力需求持续增长,但国内的智算中心存在建设分散、采购芯片代次差异大、算力资源碎片化等情况,难以灵活、低成本的获取大算力。
上海人工智能实验室攻克了大规模跨域异构集群调度、高性能通信协议整合、高可靠容错机制设计等技术难题,推出DeepLink超大规模跨域混训技术方案,以保障跨域智算集群的大模型长稳训练。
针对远距离跨域混训存在的数据同步和稳定性难题,这一技术方案采用“3D并行+PS”架构,将超大规模任务分发到各个智算中心,通过算法换通信的方式减轻网络负担,为数据传输提供更宽松的时间窗口,普通专线即可满足通信带宽的要求。同时,在异地训练中,确保即使某个智算中心的节点发生故障也不影响整体训练。
针对不同硬件显存容量和通信带宽参差不齐导致的异构混训效率低下难题,这一技术方案提出改进异构流水线并行策略,采用自研分布式并行框架动态调节不同硬件的任务量,解决异构芯片差异性带来的负载均衡和计算阻塞问题。联合团队基于现有通信协议构建适配层,成功突破了异构芯片互联效率低下的瓶颈。
目前,上海人工智能实验室DeepLink开放计算体系已深度集成至联通、电信、商汤、仪电等智算平台,实现“1个平台+N种芯片+X个地域”稳定运行。
编辑:高二山
声明:新华财经(中国金融信息网)为新华社承建的国家金融信息平台。任何情况下,本平台所发布的信息均不构成投资建议。如有问题,请联系客服:400-6123115