9月27日,由数字开物协办的“2024产学研融通创新活动——AI大模型应用场景”在北京召开,会上,中国信通院人工智能研究所基础软硬件部主任李论发表题为《大模型应用落地趋势与路径》的主题演讲,她分享了大模型的演进,深入探讨了大模型应用落地趋势与路径。
2024产学研融通创新活动——AI大模型应用场景
她表示,大模型已经成为新型智能化基础设施,具备规模可扩展性强、多任务适应性强、能力可塑性强等关键特征。大模型技术的范式变迁,特别是以Transformer为基础的大模型的突破,为行业提供了通用赋能技术。算法演进是模型发展的关键,强化模型理解和多模态发展是演进的重点。她提到,尽管大模型技术占据主导地位,但专用小模型的并行发展和大模型的小型化同样重要。
中国信通院人工智能研究所基础软硬件部主任李论演讲
李论表示,大模型的落地需要模型本身智能化水平提升和高效的训练推算系统支持。模型智能水平提升可以通过构建更大规模的模型系统来实现,同时,针对特定行业场景,通过微调和算法改造,提升模型与场景的契合度。
在她看来,模型演进的关键在于强化模型理解增强和多模态发展。开源模型和商业模型将并行发展,如何协同应用是未来关注点。同时,大模型的可控性,特别是代码层级、智能层级、开发迭代的可控性、内容层面的可控性、智能水平的可控性,都需要重点关注。
李论认为,突破多模态瓶颈,增加视频、音频等多模态的通用模型是未来重点,行业模型的高价值、大规模应用落地场景是一个新的原点。开源在驱动产业智能水平基准线提升方面发挥着关键作用。
她表示,模型应用落地需要将其作为系统性问题来考虑,计算能力受大模型性能影响,两者相互制约,HPC和AI的融合,特别是万卡、千卡规模布局是难点也是机会。
李论认为,构建大模型应用底座需要软硬件高效协同的新型基础设施,实现基础设施平台化。底座构建需要解决Scale up和Scale out问题,以及硬件和软件的协同适配问题。大规模扩展的网络架构,面向大语言模型的定制化、国产化、规模化的架构体系也在不断出现。
最后,李论表示,未来一段时间模型水平发展仍然遵循规模定律,计算在一定情况下决定了大模型规模天花板。底层是软硬高效协同的大系统,中间层以Transformer架构为核心驱动通用智能探索的大算法,上层是以模型为中心的大生态。中国信通院也在做一系列研究性工作,试图解决大模型在工程化落地过程中与底座融合一体,实现工程化应用的方向。
以下是本场主题演讲实录:
中国信通院人工智能研究所基础软硬件部主任李论:各位专家,各位现场的业界同仁大家上午好,我是中国信息通信研究院人工智能研究所软硬件与生态部李论,今天由我代表所里做分享报告。我的分享主要分成四部分,从大模型的范式变迁到模型的演进,底座的支撑和展望建议。
中国信通院人工智能研究所基础软硬件部主任李论演讲
首先是范式变迁,其实我们知道从去年、前年开始整个大模型技术架构就在快速发展,以Transformer为基础的大模型不断在突破,也取得了业界的共识,大模型已经成为了这一时期的通用赋能技术,也成为了我们面向未来的一种新型智能化基础设施。主要有三个关键特征,包括规模可扩展性强、多任务适应性强、能力可塑性强。到今天我们可以看到,今年模型整个的发展都是非常迅猛的,特别是从我们之前的语言类模型再到现在的多模态模型,再到具身智能整个发展,大模型也在封闭的机器世界完全到了和物理世界之间的交互发展的过程,使得我们整个大模型技术未来可以在更加复杂的,能够在千行百业中深度应用的可能性。
第二个也想说的是这个模型怎么能够落地,一方面是模型本身的智能化水平提升,还有一块是如何训和推大模型,其实从现在来看,整个大模型的系统是复杂的实验工程。一方面是模型本身的智能水平,另外一方面它对整个计算量的提升是非常迅速的,从早期我们做大模型、小模型的训练只需要单卡、多机、多卡就能完成,现在千卡、万卡的智算集群也在不断演进。
我们认为从现在来看,模型的尺寸增加仍然是精度最有效的提升方式,这里面有两点,一个是我们去构建更大规模的模型系统来做模型的创新发展和应用落地。我们可以看到无论是这些基础的大模型厂商还是一些典型的行业企业,国企、央企,都在试图建模型的底座,试图能够把模型真正在行业里做微调,甚至构建行业的大模型,让它真正能够落地。
提升智能水平其中一个方式就是构建更大规模的系统,来承载更大规模参数的模型训练。当然,我们可以看到不是所有有资本或者有实力的单位都可以搞这么大规模的系统的,在现有系统下如何提升模型的智能水平,能够让模型和它的典型场景深入契合,这也是我们的一个关键,这就涉及到了关键的点,比如说在行业落地的过程中训练的数据、微调的数据至关重要,它是在有效的资源下提升模型和行业结合的关键。第二个去做一系列的算法层面的改造。
第二,算法演进。我们认为强化模型理解增强和多模态的发展是模型演进的关键,这里面也在讨论一个范畴,就是目前人工智能的发展,大模型技术确实是在主导的位置。大模型不是一个模型形态,其实是研发创新和训练的范式,但同时专用的小模型也在并行发展,特别是还有另外一个,如何把大模型小型化,真正能在行业中释放技术的能力和范畴也是我们关键的重点。
从目前来看,模型整个关键任务的能力是在不断提升的,特别是在典型的通用智能的任务里,同时开源模型也在不断追赶这个差距。我们可以看到现在很多行业在落地的过程中都会两条腿走路,一方面会考虑一些开源的模型试一试、用一用、跑一跑,另外也会和主要商业化的厂商做沟通,去看一看他们商业模型或者用模型工程化平台做落地,所以有一个议题就是开闭源模型怎么结合,以及大模型、小模型怎么协同,这也是大家现在关注的重点。
其中一个核心就是模型作为基础底座有一个关键点,是将来的可控问题,特别是针对一些大的行业领域,大模型作为基础设施之后它的代码层级、智能层级如何可控,开发迭代的可控、内容层面的可控、智能水平的可控,都是我们需要关注的点。
同时我们认为突破模型模态的瓶颈,增加视频、音频多模态的通用模型是后面的重点,可以看到这个判定在去年、前年我们已经做过了,多模态的基模研究到今天我们仍然认为还没有到收敛的阶段,一个是多模态对齐问题,多模态视频生成的问题,包括今年以来不断出来的ChatGPT4o,谷歌相关的模型大家都在解决这样的问题。现在有不同的阵营,现在发展还是比较快的,从今天来看我们知道基础模型的发展已经收敛了,但行业模型的落地,或者行业模型高价值大规模应用落地场景是一个新的原点。
此外也想表达一个事情,就是开源的作用,今天我们可以看到确实在行业里实际应用的很多大模型还是以闭源模型服务方式在提供,但是我们认为开源是整个驱动产业智能水平基准线提升的一个关键,能够整体性抬高大模型技术在各行业应用的可能性的基础。特别是像这些开源模型和与做软硬件的适配结合,对上服务模型平台的集成,这样生态的能力也是我们在大模型应用落地过程中选型需要关注的要点。
第三,底座支撑。到今天我们认为模型的原始创新其实是跟底下的大模型训推系统高度结合或者深度耦合的,我们去看模型应用落地的时候要把它当作系统性的问题来考虑,而且我们认为真正能落地,计算的能力是受到大模型性能的影响的,两者之间有相互制约关系,HPC和AI的融合,往万卡、千卡方面布局这一块是难点、卡点,也是机会。
所以在这个层面上我们认为有三个非常关键的要点,软硬高效协同的新型基础设施,整个人工智能产业链的形态在发生变化,早期的时候我们产业的水平化是非常显著的,从芯片、框架、平台、模型到应用,每个产业链都有自己关键的产品。到今天来看,因为现在整个主导路线变成了大模型、大数据、大算力,以大模型为主导的载体或者智能的核心,底层的产业链体系架构也在往基础设施的方向发展,所以我们会发现芯片从单点变成了大规模的集群,里面涉及到网络的问题,涉及到万卡规模性的问题,上面的框架从我们早期的集成各类小模型的模型库、工具链,解决工程化的问题,到现在我们会发现像DeepSpeed分布式加速框架成为了关键,再到平台层,平台层也是一样的,我们相当于集成了若干大模型做相关的工作,它的集约性、平台属性会更凸显。在早期一公里碎片化的问题,我们相信在今天模型落地的过程中能有所缓解,实现真正设施的平台化。
这里面有几个简单的点可以简要讲一讲,一个是怎么构建这个底座,这里面有个Scale up和Scale out的问题,一方面我们会发现现在硬件和软件的协同适配的问题,是我们关注的重点。第二个是真正把规模扩展到百卡、千卡、万卡的时候,追求线性集群的扩展能力也是非常难的,仍然是现在工程界和学术界共同在解决的问题。当然还有大规模扩展的网络架构,面向大语言模型的定制化、国产化、规模化的架构体系在不断出现。
最后我们的挑战和建议,如何准确度量智算集群系统,来实现大模型在各行业落地过程中的底座问题,其实很多行业真正用的时候是用的大模型压缩之后的小模型能力,终端边缘侧设备到底是什么形态来承载这种模型?我的实际应用场景,不同的实际场景里,软硬件的结构怎么融合模型和底下的硬件体系,实现多元化的能力也是我们关注的一个重点,所以关于底座的构建,软硬件的适配以及差异化的运营也是我们的观点。
第四,展望建议。我们认为未来一段时间模型水平发展仍然是遵循规模定律的,计算在一定情况下决定了大模型规模天花板,在底层我们认为是软硬高效协同的大系统,中间这一层还是以Transformer架构为核心驱动通用智能探索的大算法,上面的模型平台是以模型为中心的大生态。
当然中国信通院也在做一系列研究性的工作,我们也试图去解决大模型真正在工程化落地过程中我们需要跟底座融合一体,真正实现工程化应用的方向。我们就构建了一套体系叫AISHPERF,实现兼容适配和面向不同类型场景系统化能力的验证和测试。我们也构建了一个人工智能的推进组,汇聚了产业链上下游70多家企业和研究机构,也欢迎各单位如果有意可以加入进来,共同推动我们在大模型时代人工智能落地过程中工程化的,大系统的,协同的问题。
中国信通院建设了人工智能软硬件协同和适配验证中心,这个中心就落地在了亦庄信创园,这个中心也承载了国家层面上现在在推动的人工智能软硬件协同相关的技术攻关、标准制定、生态培育、测试验证等一系列的相关工作,也欢迎大家的关注。
最后,我相信在这个时代大模型的技术红利确实已经可以在各行业中落地,这里面的核心是怎么解决最后一公里和工程化相关的工作的,能够把这个能力充分释放出来,也希望和业界共同推动大模型的应用发展,谢谢。
9月27日,由数字开物协办的“2024产学研融通创新活动——AI大模型应用场景”在北京召开,会上,中国信通院人工智能研究所基础软硬件部主任李论发表题为《大模型应用落地趋势与路径》的主题演讲,她分享了大模型的演进,深入探讨了大模型应用落地趋势与路径。
2024产学研融通创新活动——AI大模型应用场景
她表示,大模型已经成为新型智能化基础设施,具备规模可扩展性强、多任务适应性强、能力可塑性强等关键特征。大模型技术的范式变迁,特别是以Transformer为基础的大模型的突破,为行业提供了通用赋能技术。算法演进是模型发展的关键,强化模型理解和多模态发展是演进的重点。她提到,尽管大模型技术占据主导地位,但专用小模型的并行发展和大模型的小型化同样重要。
中国信通院人工智能研究所基础软硬件部主任李论演讲
李论表示,大模型的落地需要模型本身智能化水平提升和高效的训练推算系统支持。模型智能水平提升可以通过构建更大规模的模型系统来实现,同时,针对特定行业场景,通过微调和算法改造,提升模型与场景的契合度。
在她看来,模型演进的关键在于强化模型理解增强和多模态发展。开源模型和商业模型将并行发展,如何协同应用是未来关注点。同时,大模型的可控性,特别是代码层级、智能层级、开发迭代的可控性、内容层面的可控性、智能水平的可控性,都需要重点关注。
李论认为,突破多模态瓶颈,增加视频、音频等多模态的通用模型是未来重点,行业模型的高价值、大规模应用落地场景是一个新的原点。开源在驱动产业智能水平基准线提升方面发挥着关键作用。
她表示,模型应用落地需要将其作为系统性问题来考虑,计算能力受大模型性能影响,两者相互制约,HPC和AI的融合,特别是万卡、千卡规模布局是难点也是机会。
李论认为,构建大模型应用底座需要软硬件高效协同的新型基础设施,实现基础设施平台化。底座构建需要解决Scale up和Scale out问题,以及硬件和软件的协同适配问题。大规模扩展的网络架构,面向大语言模型的定制化、国产化、规模化的架构体系也在不断出现。
最后,李论表示,未来一段时间模型水平发展仍然遵循规模定律,计算在一定情况下决定了大模型规模天花板。底层是软硬高效协同的大系统,中间层以Transformer架构为核心驱动通用智能探索的大算法,上层是以模型为中心的大生态。中国信通院也在做一系列研究性工作,试图解决大模型在工程化落地过程中与底座融合一体,实现工程化应用的方向。
以下是本场主题演讲实录:
中国信通院人工智能研究所基础软硬件部主任李论:各位专家,各位现场的业界同仁大家上午好,我是中国信息通信研究院人工智能研究所软硬件与生态部李论,今天由我代表所里做分享报告。我的分享主要分成四部分,从大模型的范式变迁到模型的演进,底座的支撑和展望建议。
中国信通院人工智能研究所基础软硬件部主任李论演讲
首先是范式变迁,其实我们知道从去年、前年开始整个大模型技术架构就在快速发展,以Transformer为基础的大模型不断在突破,也取得了业界的共识,大模型已经成为了这一时期的通用赋能技术,也成为了我们面向未来的一种新型智能化基础设施。主要有三个关键特征,包括规模可扩展性强、多任务适应性强、能力可塑性强。到今天我们可以看到,今年模型整个的发展都是非常迅猛的,特别是从我们之前的语言类模型再到现在的多模态模型,再到具身智能整个发展,大模型也在封闭的机器世界完全到了和物理世界之间的交互发展的过程,使得我们整个大模型技术未来可以在更加复杂的,能够在千行百业中深度应用的可能性。
第二个也想说的是这个模型怎么能够落地,一方面是模型本身的智能化水平提升,还有一块是如何训和推大模型,其实从现在来看,整个大模型的系统是复杂的实验工程。一方面是模型本身的智能水平,另外一方面它对整个计算量的提升是非常迅速的,从早期我们做大模型、小模型的训练只需要单卡、多机、多卡就能完成,现在千卡、万卡的智算集群也在不断演进。
我们认为从现在来看,模型的尺寸增加仍然是精度最有效的提升方式,这里面有两点,一个是我们去构建更大规模的模型系统来做模型的创新发展和应用落地。我们可以看到无论是这些基础的大模型厂商还是一些典型的行业企业,国企、央企,都在试图建模型的底座,试图能够把模型真正在行业里做微调,甚至构建行业的大模型,让它真正能够落地。
提升智能水平其中一个方式就是构建更大规模的系统,来承载更大规模参数的模型训练。当然,我们可以看到不是所有有资本或者有实力的单位都可以搞这么大规模的系统的,在现有系统下如何提升模型的智能水平,能够让模型和它的典型场景深入契合,这也是我们的一个关键,这就涉及到了关键的点,比如说在行业落地的过程中训练的数据、微调的数据至关重要,它是在有效的资源下提升模型和行业结合的关键。第二个去做一系列的算法层面的改造。
第二,算法演进。我们认为强化模型理解增强和多模态的发展是模型演进的关键,这里面也在讨论一个范畴,就是目前人工智能的发展,大模型技术确实是在主导的位置。大模型不是一个模型形态,其实是研发创新和训练的范式,但同时专用的小模型也在并行发展,特别是还有另外一个,如何把大模型小型化,真正能在行业中释放技术的能力和范畴也是我们关键的重点。
从目前来看,模型整个关键任务的能力是在不断提升的,特别是在典型的通用智能的任务里,同时开源模型也在不断追赶这个差距。我们可以看到现在很多行业在落地的过程中都会两条腿走路,一方面会考虑一些开源的模型试一试、用一用、跑一跑,另外也会和主要商业化的厂商做沟通,去看一看他们商业模型或者用模型工程化平台做落地,所以有一个议题就是开闭源模型怎么结合,以及大模型、小模型怎么协同,这也是大家现在关注的重点。
其中一个核心就是模型作为基础底座有一个关键点,是将来的可控问题,特别是针对一些大的行业领域,大模型作为基础设施之后它的代码层级、智能层级如何可控,开发迭代的可控、内容层面的可控、智能水平的可控,都是我们需要关注的点。
同时我们认为突破模型模态的瓶颈,增加视频、音频多模态的通用模型是后面的重点,可以看到这个判定在去年、前年我们已经做过了,多模态的基模研究到今天我们仍然认为还没有到收敛的阶段,一个是多模态对齐问题,多模态视频生成的问题,包括今年以来不断出来的ChatGPT4o,谷歌相关的模型大家都在解决这样的问题。现在有不同的阵营,现在发展还是比较快的,从今天来看我们知道基础模型的发展已经收敛了,但行业模型的落地,或者行业模型高价值大规模应用落地场景是一个新的原点。
此外也想表达一个事情,就是开源的作用,今天我们可以看到确实在行业里实际应用的很多大模型还是以闭源模型服务方式在提供,但是我们认为开源是整个驱动产业智能水平基准线提升的一个关键,能够整体性抬高大模型技术在各行业应用的可能性的基础。特别是像这些开源模型和与做软硬件的适配结合,对上服务模型平台的集成,这样生态的能力也是我们在大模型应用落地过程中选型需要关注的要点。
第三,底座支撑。到今天我们认为模型的原始创新其实是跟底下的大模型训推系统高度结合或者深度耦合的,我们去看模型应用落地的时候要把它当作系统性的问题来考虑,而且我们认为真正能落地,计算的能力是受到大模型性能的影响的,两者之间有相互制约关系,HPC和AI的融合,往万卡、千卡方面布局这一块是难点、卡点,也是机会。
所以在这个层面上我们认为有三个非常关键的要点,软硬高效协同的新型基础设施,整个人工智能产业链的形态在发生变化,早期的时候我们产业的水平化是非常显著的,从芯片、框架、平台、模型到应用,每个产业链都有自己关键的产品。到今天来看,因为现在整个主导路线变成了大模型、大数据、大算力,以大模型为主导的载体或者智能的核心,底层的产业链体系架构也在往基础设施的方向发展,所以我们会发现芯片从单点变成了大规模的集群,里面涉及到网络的问题,涉及到万卡规模性的问题,上面的框架从我们早期的集成各类小模型的模型库、工具链,解决工程化的问题,到现在我们会发现像DeepSpeed分布式加速框架成为了关键,再到平台层,平台层也是一样的,我们相当于集成了若干大模型做相关的工作,它的集约性、平台属性会更凸显。在早期一公里碎片化的问题,我们相信在今天模型落地的过程中能有所缓解,实现真正设施的平台化。
这里面有几个简单的点可以简要讲一讲,一个是怎么构建这个底座,这里面有个Scale up和Scale out的问题,一方面我们会发现现在硬件和软件的协同适配的问题,是我们关注的重点。第二个是真正把规模扩展到百卡、千卡、万卡的时候,追求线性集群的扩展能力也是非常难的,仍然是现在工程界和学术界共同在解决的问题。当然还有大规模扩展的网络架构,面向大语言模型的定制化、国产化、规模化的架构体系在不断出现。
最后我们的挑战和建议,如何准确度量智算集群系统,来实现大模型在各行业落地过程中的底座问题,其实很多行业真正用的时候是用的大模型压缩之后的小模型能力,终端边缘侧设备到底是什么形态来承载这种模型?我的实际应用场景,不同的实际场景里,软硬件的结构怎么融合模型和底下的硬件体系,实现多元化的能力也是我们关注的一个重点,所以关于底座的构建,软硬件的适配以及差异化的运营也是我们的观点。
第四,展望建议。我们认为未来一段时间模型水平发展仍然是遵循规模定律的,计算在一定情况下决定了大模型规模天花板,在底层我们认为是软硬高效协同的大系统,中间这一层还是以Transformer架构为核心驱动通用智能探索的大算法,上面的模型平台是以模型为中心的大生态。
当然中国信通院也在做一系列研究性的工作,我们也试图去解决大模型真正在工程化落地过程中我们需要跟底座融合一体,真正实现工程化应用的方向。我们就构建了一套体系叫AISHPERF,实现兼容适配和面向不同类型场景系统化能力的验证和测试。我们也构建了一个人工智能的推进组,汇聚了产业链上下游70多家企业和研究机构,也欢迎各单位如果有意可以加入进来,共同推动我们在大模型时代人工智能落地过程中工程化的,大系统的,协同的问题。
中国信通院建设了人工智能软硬件协同和适配验证中心,这个中心就落地在了亦庄信创园,这个中心也承载了国家层面上现在在推动的人工智能软硬件协同相关的技术攻关、标准制定、生态培育、测试验证等一系列的相关工作,也欢迎大家的关注。
最后,我相信在这个时代大模型的技术红利确实已经可以在各行业中落地,这里面的核心是怎么解决最后一公里和工程化相关的工作的,能够把这个能力充分释放出来,也希望和业界共同推动大模型的应用发展,谢谢。