国海证券:大模型技术驱动AI估值迎来重塑 维持计算机行业“推荐”评级

智通财经

1天前

智通财经APP获悉,国海证券发布研报称,大模型技术正迎来加速变革,从架构创新到训练范式升级,推动AGI时代加速到来。

智通财经APP获悉,国海证券发布研报称,大模型技术正迎来加速变革,从架构创新到训练范式升级,推动AGI时代加速到来。模型架构MoE与Transformer融合成为主流,合成数据成为"新型石油"。后训练阶段RL计算量和推理时间成为关键,DeepSeek带动强化学习新范式。通过MLA等低秩分解技术,本地部署32B级模型仅需消费级显卡,大模型落地迎来真正元年。大模型技术稳步提升,推动AGI时代加速到来,以大模型为底座的技术迭代或将持续驱动国产AI估值迎来重塑,维持计算机行业“推荐”评级。

国海证券主要观点如下:

大模型发展回顾:以Transformer为基,Scaling law贯穿始终

2017年谷歌团队提出Transformer架构,创造性推动注意力层以及前馈神经网络层的发展,加速提升模型性能。2018–2020年是预训练Transformer模型时代,GPT-3以1750亿参数突破大规模预训练的可能性界限,而SFT及RLHF等技术帮助模型加速对齐人类价值观。此后随着训练侧Scaling Law描述的幂律关系出现收益递减,叠加高质量文本数据或逐步被AI耗尽,推理模型开始进入人们视野;以OpenAI发布o1-preview将AIME 2024的模型回答准确率从GPT4o的13.4%提升至56.7%,模型维持加速迭代更新。

国内大模型进展:行业充分竞争,降本提效为主旋律

资源有限的条件下,预计低成本高性能追平海外SOTA为2025年国产大模型的主题。该行以DeepSeek、豆包、阿里千问为例,1)DeepSeek- R1/V3依靠创新的降本提效手段,核心旨在资源有限的条件下,极大提升GPU在计算/通信上的利用率。2)豆包大模型在2024年下半年发力,月活数据冲上全球第二和国内第一;同样在降本增效范式上依靠稀疏MoE架构实现小参数高性能;3)阿里Qwen引领国产开源模型标杆的同时,依靠强化学习范式推出的QwQ-32B已登顶全球最强开源模型,以32B参数模型追平DeepSeek-R1满血模型性能,小参数高性能持续成为主旋律。

海外大模型进展:资源头部集中,押注AGI

算力充沛条件下,资源倾斜押注AGI。1)OpenAI:推理模型o1、多模态模型Sora均实现了行业引领,2025年来CEOAltman多次提及将发布OpenAI的首款Agent,且2025年也会是Agent爆发的元年;2)Google:前瞻布局原生多模态Gemini,2024年底发布多款Agent产品,同时布局轻量化模型Gemma抢占端侧生态;3)Meta:2024年12月Llama3.3以70B参数实现Llama3.1405B的性能;基于Meta Live已实现实时语音交互、跨设备协作能力,发力通用智能体;4)2024年10月Claude3.5 Sonnet升级新增computer use能力,让Claude像人一样使用电脑;此外,2025年抢先发布混合推理模型Claude-3.7-sonnet。

模型未来研判:投注后训练+算法大幅优化,低成本落地+实现AGI为终极目标

模型在架构以及pre-training——post training——落地层面均迎来加速变革。1)模型架构层面,MoE与Transformer融合当前逐步成为主流架构,2024年全球MoE大模型数量呈爆发增长态势;2)pre-training层面,高质量数据或逐步耗尽的背景下,合成数据已然成为数字经济时代的“新型石油”,继续支撑模型的训练迭代;3)post-training方面,推理模型性能飞跃的关键也逐步转向该阶段阶段RL计算量和测试推理阶段的思考时间,同时DeepSeek带动了纯强化学习的新范式;4)模型落地层面,DeepSeek带动模型加速低成本部署趋势,通过MLA等低秩分解的方式实现显存占用的大幅降低,实现本地化部署DeepSeek-R1-32B及以下模型仅需要消费级显卡,大模型落地迎来真正意义上的元年。

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com   

智通财经APP获悉,国海证券发布研报称,大模型技术正迎来加速变革,从架构创新到训练范式升级,推动AGI时代加速到来。

智通财经APP获悉,国海证券发布研报称,大模型技术正迎来加速变革,从架构创新到训练范式升级,推动AGI时代加速到来。模型架构MoE与Transformer融合成为主流,合成数据成为"新型石油"。后训练阶段RL计算量和推理时间成为关键,DeepSeek带动强化学习新范式。通过MLA等低秩分解技术,本地部署32B级模型仅需消费级显卡,大模型落地迎来真正元年。大模型技术稳步提升,推动AGI时代加速到来,以大模型为底座的技术迭代或将持续驱动国产AI估值迎来重塑,维持计算机行业“推荐”评级。

国海证券主要观点如下:

大模型发展回顾:以Transformer为基,Scaling law贯穿始终

2017年谷歌团队提出Transformer架构,创造性推动注意力层以及前馈神经网络层的发展,加速提升模型性能。2018–2020年是预训练Transformer模型时代,GPT-3以1750亿参数突破大规模预训练的可能性界限,而SFT及RLHF等技术帮助模型加速对齐人类价值观。此后随着训练侧Scaling Law描述的幂律关系出现收益递减,叠加高质量文本数据或逐步被AI耗尽,推理模型开始进入人们视野;以OpenAI发布o1-preview将AIME 2024的模型回答准确率从GPT4o的13.4%提升至56.7%,模型维持加速迭代更新。

国内大模型进展:行业充分竞争,降本提效为主旋律

资源有限的条件下,预计低成本高性能追平海外SOTA为2025年国产大模型的主题。该行以DeepSeek、豆包、阿里千问为例,1)DeepSeek- R1/V3依靠创新的降本提效手段,核心旨在资源有限的条件下,极大提升GPU在计算/通信上的利用率。2)豆包大模型在2024年下半年发力,月活数据冲上全球第二和国内第一;同样在降本增效范式上依靠稀疏MoE架构实现小参数高性能;3)阿里Qwen引领国产开源模型标杆的同时,依靠强化学习范式推出的QwQ-32B已登顶全球最强开源模型,以32B参数模型追平DeepSeek-R1满血模型性能,小参数高性能持续成为主旋律。

海外大模型进展:资源头部集中,押注AGI

算力充沛条件下,资源倾斜押注AGI。1)OpenAI:推理模型o1、多模态模型Sora均实现了行业引领,2025年来CEOAltman多次提及将发布OpenAI的首款Agent,且2025年也会是Agent爆发的元年;2)Google:前瞻布局原生多模态Gemini,2024年底发布多款Agent产品,同时布局轻量化模型Gemma抢占端侧生态;3)Meta:2024年12月Llama3.3以70B参数实现Llama3.1405B的性能;基于Meta Live已实现实时语音交互、跨设备协作能力,发力通用智能体;4)2024年10月Claude3.5 Sonnet升级新增computer use能力,让Claude像人一样使用电脑;此外,2025年抢先发布混合推理模型Claude-3.7-sonnet。

模型未来研判:投注后训练+算法大幅优化,低成本落地+实现AGI为终极目标

模型在架构以及pre-training——post training——落地层面均迎来加速变革。1)模型架构层面,MoE与Transformer融合当前逐步成为主流架构,2024年全球MoE大模型数量呈爆发增长态势;2)pre-training层面,高质量数据或逐步耗尽的背景下,合成数据已然成为数字经济时代的“新型石油”,继续支撑模型的训练迭代;3)post-training方面,推理模型性能飞跃的关键也逐步转向该阶段阶段RL计算量和测试推理阶段的思考时间,同时DeepSeek带动了纯强化学习的新范式;4)模型落地层面,DeepSeek带动模型加速低成本部署趋势,通过MLA等低秩分解的方式实现显存占用的大幅降低,实现本地化部署DeepSeek-R1-32B及以下模型仅需要消费级显卡,大模型落地迎来真正意义上的元年。

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com   

展开
打开“财经头条”阅读更多精彩资讯
APP内打开