8月22日,上证指数涨1.45%站上3800点,算力、芯片股集体爆发。近期国产算力板块迎来密集催化,8月13日,腾讯业绩会表示公司推理芯片供应渠道侧具备多种选择;8月21日,DeepSeek更新模型版本至DeepSeek-V3.1,预计将支持FP8精度以及国产芯片;近期,基于华为昇腾芯片的服务器产品陆续在政府、金融、运营商等行业落地大单。
国产人工智能芯片发展趋势及展望
海外龙头占据垄断地位,AI加速芯片市场呈现“一超多强”态势。数据中心CPU市场上,英特尔份额有所下降但仍保持较大领先优势,AMD持续抢占份额势头正盛。AI加速计算芯片市场上,英伟达凭借硬件优势和软件生态一家独大,在训练、推理端均占据领先地位。根据IDC数据,2024年国内AI加速计算芯片市场中,英伟达出货份额达70%,华为昇腾出货份额23%,其余厂商合计占比7%。国内厂商起步较晚,正逐步发力,部分加速芯片领域已经涌现出一批破局企业,虽然在高端AI加速计算芯片领域与海外厂商存在较大差距,但在国内市场上已经开始取得部分份额,根据IDC数据,2024年国内AI芯片市场中,华为昇腾出货64万片,寒武纪出货2.6万片,燧原出货1.3万片。未来,随着美国持续加大对中国高端芯片的出口限制,AI芯片国产化进程有望继续加快。
GPU市场方面,海外龙头占据垄断地位,国产厂商加速追赶。当前英伟达、AMD、英特尔三巨头占据全球GPU芯片市场的主导地位。集成GPU芯片一般在台式机和笔记本电脑中使用,性能和功耗较低,主要厂商包括英特尔和AMD。独立显卡常用于服务器中,性能更高、功耗更大,主要厂商包括英伟达和AMD。分应用场景来看,应用在人工智能、科学计算、视频编解码等场景的服务器GPU市场中,英伟达和AMD占据主要份额。根据JPR预测,2025年Q1英伟达的独立显卡(包括AIB 合作伙伴显卡)的市场份额达92%, AMD和英特尔则分别占比8%、0%。
图形渲染GPU:英伟达引领行业数十年,持续技术迭代和生态构建实现长期领先。2006年起,英伟达GPU架构保持约每两年更新一次的节奏,各代际产品性能提升显著,生态构建完整,GeForce系列产品市占率长期保持市场首位,最新代际GeForce RTX 40系列代表了目前显卡的性能巅峰,采用全新的Ada Lovelace架构,台积电5nm级别工艺,拥有760亿晶体管和18000个CUDA核心,与Ampere相比架构核心数量增加约70%,能耗比提升近两倍,可驱动DLSS 3.0技术。性能远超上代产品。AMD独立GPU在RDNA架构迭代路径清晰,RDNA 3架构采用5nm工艺和Chiplet设计,比RDNA 2架构有54%每瓦性能提升。目前国内厂商在图形渲染GPU方面与国外龙头厂商差距不断缩小。芯动科技的“风华2号”GPU像素填充率48GPixel/s,FP32单精度浮点性能1.5TFLOPS,AI运算(INT8)性能12.5TOPS,实测功耗4~15W,支持OpenGL4.3、DX11、Vulkan等API,实现国产图形渲染GPU突破。景嘉微在工艺制程、核心频率、浮点性能等方面虽落后于英伟达同代产品,但差距正逐渐缩小。2023年顺利发布JM9系列图形处理芯片,支持OpenGL 4.0、HDMI 2.0等接口,以及H.265/4K 60-fps视频解码,核心频率至少为1.5GHz,配备8GB显存,浮点性能约1.5TFlops,与英伟达GeForce GTX1050性能相近,有望对标GeForce GTX1080。
GPGPU:英伟达和AMD是目前全球GPGPU的领军企业。英伟达的通用计算芯片具备优秀的硬件设计,通过CUDA架构等全栈式软件布局,实现了GPU并行计算的通用化,深度挖掘芯片硬件的性能极限,在各类下游应用领域中,均推出了高性能的软硬件组合,逐步成为全球AI芯片领域的主导者。AMD于2018年发布用于数据中心的Radeon Instinct GPU加速芯片,Instinct系列基于CDNA架构,如MI250X采用CDNA2架构,在通用计算领域实现计算能力和互联能力的显著提升,此外还推出了对标英伟达CUDA生态的AMD ROCm开源软件开发平台。
国内GPGPU厂商正逐步缩小与英伟达、AMD的差距。英伟达凭借其硬件产品性能的先进性和生态构建的完善性处于市场领导地位,国内厂商虽然在硬件产品性能和产业链生态架构方面与前者有所差距,但正在逐步完善产品布局和生态构建,不断缩小与行业龙头厂商的差距。
ASIC市场方面,由于其一定的定制化属性,市场格局较为分散。在人工智能领域,ASIC也占据一席之地。其中谷歌处于相对前沿的技术地位,自2016年以来,就推出了专为机器学习定制的ASIC,即张量处理器(Tensor Processing Unit,TPU)。2025年谷歌推出了第七代张量处理单元(TPU)Ironwood,可扩展至9216个液冷芯片,并通过突破性的芯片间互联,功率接近10兆瓦。据nextplatform介绍,TPU v7p芯片是谷歌首款在其张量核心和矩阵数学单元中支持FP8计算的TPU。之前的TPU支持INT8格式和推理处理,以及BF16格式和训练处理。Ironwood芯片还配备了第三代SparseCore加速器,该加速器首次亮相于TPU v5p,并在去年的Trillium芯片中得到了增强。
国产厂商快速发展,寒武纪等异军突起。通过产品对比发现,目前寒武纪、海思昇腾、遂原科技等国产厂商正通过技术创新和设计优化,持续提升产品的性能、能效和易用性,推动产品竞争力不断提升,未来国产厂商有望在ASIC领域持续发力,突破国外厂商在AI芯片的垄断格局。
生态体系决定用户体验,是算力芯片厂商最深的护城河。虽然英伟达GPU本身硬件平台的算力卓越,但其强大的CUDA软件生态才是推升其GPU计算生态普及的关键力量。从技术角度来讲,GPU硬件的性能门槛并不高,通过产品迭代可以接近龙头领先水平,但下游客户更在意能不能用、好不好用的生态问题。CUDA推出之前GPU编程需要用机器码深入到显卡内核才能完成任务,而推出之后相当于把复杂的显卡编程包装成为一个简单的接口,造福开发人员,迄今为止已成为最发达、最广泛的生态系统,是目前最适合深度学习、AI训练的GPU架构。英伟达在2007年推出后不断改善更新,衍生出各种工具包、软件环境,构筑了完整的生态,并与众多客户合作构建细分领域加速库与AI训练模型,已经积累300个加速库和400个AI模型。尤其在深度学习成为主流之后,英伟达通过有针对性地优化来实现最佳的效率提升性能,例如支持混合精度训练和推理,在GPU中加入Tensor Core来提升卷积计算能力,以及最新的在H100 GPU中加入Transformer Engine来提升相关模型的性能。这些投入包括了软件和芯片架构上的协同设计,使得英伟达能使用最小的代价来保持性能的领先。而即便是英伟达最大的竞争对手AMD的ROCm平台在用户生态和性能优化上还存在差距。CUDA作为完整的GPU解决方案,提供了硬件的直接访问接口,开发门槛大幅降低,而这套易用且能充分调动芯片架构潜力的软件生态让英伟达在大模型社区拥有巨大的影响力。正因CUDA拥有成熟且性能良好的底层软件架构,几乎所有的深度学习训练和推理框架都把对于英伟达GPU的支持和优化作为必备的目标,帮助英伟达持续处于领先地位。
美国对华供应AI芯片管制强度持续升级,H20被纳入管制范围。2022年,美国BIS实施出口管制,英伟达和AMD的高端GPU产品出口受到限制。为满足合规要求,英伟达随后推出了面向中国市场的H800与A800,互联带宽被下调。2023年,BIS公布的先进计算芯片出口管制新规进一步扩大限制范围,以“性能密度”与“总处理性能(TPP)”成为新的标准,使得A100、A800、H100、H800、L40、L40S等多款产品遭到限制。虽然英伟达又推出了性能大幅下调,符合新规的H20,但H20也在今年4月被美国纳入出口管制。
国产算力芯片迎来国产替代窗口期。考虑到英伟达新品迎来大幅性能升级,并面向中国市场禁售,国产算力芯片发展刻不容缓。当前已经涌现出一大批国产算力芯片厂商,昇腾、寒武纪相继推出自研AI芯片,海光信息的DCU也逐渐打出知名度,其他配套环节的国产化进程也正在加速推进。
证券研究报告名称:《AI新纪元:砥砺开疆・智火燎原》
对外发布时间:2025年7月24日
报告发布机构:中信建投证券股份有限公司
本报告分析师:
黄文涛 SAC 编号:S1440510120015
SFC 编号:BEO134
阎贵成 SAC 编号:S1440518040002
SFC 编号:BNS315
程似骐 SAC 编号:S1440520070001
SFC 编号:BQR089
崔世峰 SAC 编号:S1440521100004
SFC 编号:BUI663
贺菊颖 SAC 编号:S1440517050001
SFC 编号:ASZ591
黎韬扬 SAC 编号:S1440516090001
刘双锋 SAC 编号:S1440520070002
刘永旭 SAC 编号:S1440520070014
SFC 编号:BVF090
庞佳军 SAC 编号:S1440524110001
陶亦然 SAC 编号:S1440518060002
王在存 SAC编号:S1440521070003
许琳 SAC 编号:S1440522110001
SFC 编号:BVU271
许光坦 SAC 编号:S1440523060002
杨艾莉 SAC 编号:S1440519060002
SFC 编号:BQI330
叶乐 SAC 编号:S1440519030001
SFC 编号:BOT812
应瑛 SAC 编号:S1440521100010
SFC 编号:BWB917
于芳博 SAC 编号:S1440522030001
SFC 编号:BVA286
袁清慧 SAC编号:S1440520030001
SFC编号:BPW879
赵然 SAC 编号:S1440518100009
SFC 编号:BQQ828
朱玥 SAC 编号:S1440521100008
SFC 编号:BTM546
腾讯业绩会表示未来推理芯片供给有望多元化,利好国产算力芯片厂商。8月13日,腾讯控股发布2025Q2业绩并举办说明会,会上腾讯总裁刘炽平表示当前公司AI芯片储备足以支持现有模型的训练及迭代升级;元宝、AI搜索等多个应用场景的用户数提升带来推理负载占比提升,公司一方面通过模型轻量化和软件优化来控制推理成本,另一方面公司在推理芯片的供应渠道侧也具备多种选择。当前海外高端芯片贸易政策仍存较大不确定性,腾讯有望依托华为、寒武纪、海光等国产厂商的推理芯片满足相关算力需求。
DeepSeek V3.1发布,预计支持FP8精度以及国产芯片。据官方公众号,DeepSeek今日正式发布DeepSeek-V3.1。目前官网与网页端模型已升级至最新版本,且新模型已在Huggingface开源。新版本模型主要升级体现在以下维度:(1)一个模型同时支持思考模式与非思考模式;(2)相比前代模型,新模型思考模式下能在更短时间内给出答案;(3)通过Post-Training优化,新模型具备更强的Agent能力。除去功能升级,新版本模型使用了UE8M0 FP8 Scale参数精度,该参数代表模型支持转为矩阵乘法等AI核心运算优化设计的FP8精度格式。相比FP16格式,FP8在同等芯片面积下能够实现翻倍性能,且功耗和带宽需求更低。此外,DeepSeek表示新精度格式针对即将发布的下一代国产芯片设计,表明未来基于DeepSeek模型的训练与推理有望更多应用国产AI芯片,助力国产算力生态加速建设。
华为昇腾芯片加速突围,国产芯片市场竞争力逐步提升。近期,基于华为昇腾芯片的服务器产品陆续在政府、金融、运营商等行业落地大单。上海浦发银行大模型算力扩容项目招标中,包含176台鲲鹏+昇腾配置的智算服务器;新疆疆算万卡枢纽型智算中心项目招标中,包含4500台昇腾910C-2服务器集群;中国移动2025-2026推理AI计算设备招标中,包含5000套CANN生态设备,即基于昇腾异构计算架构和昇腾芯片的服务器产品。由于海外供应链风险持续,国产芯片厂商产品性价比持续提升,更多算力需求有望由国产芯片支持,国产芯片市场竞争力持续提升。
投资建议:国产算力板块迎来密集催化,腾讯业绩会表示推理芯片的供应渠道侧具备多种选择,国际供应链波动背景下国产推理算力芯片有望提供助力。DeepSeek更新模型,明确支持FP8精度与将发布的下一代国产芯片,头部国产开源模型对国产芯片的支持有望推动国产算力生态加速落地。华为昇腾芯片近期陆续参与到政府、金融、运营商等行业客户招投标产品中,印证国产芯片竞争力持续提升。
证券研究报告名称:《DeepSeek-V3.1发布,建议关注国产算力板块》
对外发布时间:2025年8月21日
报告发布机构:中信建投证券股份有限公司
本报告分析师:
应瑛 SAC 编号:S1440521100010
SFC 编号:BWB917
王嘉昊SAC 编号:S1440524030002
中期维度看,订单向国产芯片倾斜式必然趋势。由于美国政府芯片法案多轮制裁,英伟达旗舰芯片向中国的售卖持续受阻,从2022年的片间互联、23年的算力以及算力密度限制、到2025年初的1700GB/s通信带宽限制,英伟达产品被迫多次进行阉割,竞争力持续下降。云厂商以及人工智能初创公司基于算力稳定供应诉求,将更多算力采购规划倾斜向国产芯片,并且比重不断加大。尽管后续依旧存在推出满足BIS需求的定制版中国芯片,但其市场竞争力则存在较大疑问。 目前国产芯片市场集中度提升趋势明显。由寒武纪、华为为代表的芯片公司凭借强大的技术实力、优异的产品性能、以及前线业务资源的大量投入,最先实现商业化客户业务的成功落地,在大模型推理算力建设中贡献大量算力;以天数智芯、沐曦、昆仑芯为代表的创业公司也在奋起直追,通过良好的产品性能以及性价比,争取大规模商业化客户成单机会,近期可以观察到国内芯片厂商纷纷投入大量人力物力资源,尝试与多家头部互联网客户进行业务绑定。 国内芯片生态建设分为两大路线,一条是以天数智芯、沐曦、海光等主打GPGPU路线,追求与英伟达的CUDA兼容,实现兼容性与通用性提高,在客户处实现迁移成本与迁移时间大幅度下降,在英伟达的生态圈内抢占市场。后续CUDA升级或模型升级,CUDA兼容路线软件栈同样需要更新升级以适配,长期跟进对人力消耗较大;另一条则是以华为的Mindspore为代表的自主生态,试图在英伟达生态圈外建立单独生态圈,与英伟达进行竞争。其后续突围能力,除技术成熟度外,更多考量产品出货量与基于Mindspore开发的研发人员数量,对长期持续投入具有较高要求。 随着国内算力消耗快速增长(典型如字节跳动,每三个月token消耗接近翻一倍,5月底为16.4万亿token),我们预计国内各家大型云厂商在日均token消耗达到30万亿token时会感受到算力紧张,在达到60万亿token时会开始出现一定算力缺口。我们认为国内增速斜率更陡峭,国产芯片今年将迎来发展大年。 证券研究报告名称:《人工智能2025中期投资策略报告:推理走向舞台中央,自主可控大势所趋,Agent及多模态加速》 对外发布时间:2025年6月16日 报告发布机构:中信建投证券股份有限公司 本报告分析师: 于芳博 SAC 编号:S1440522030001 SFC 编号:BVA286 庞佳军 SAC 编号:S1440524110001 方子箫 SAC 编号: S1440524070009 辛侠平 SAC 编号:S1440524070006 算力芯片快速升级,高端产能于周期底部积极扩产 算力硬件平台开始向新方案过渡,英伟达Blackwell与CSP ASIC放量 GB200服务器进入规模化量产阶段,Blackwell将接替Hopper成为出货主力。在GTC 2024大会上,英伟达正式发布了新一代Blackwell架构AI芯片,并推出了基于该架构的新型机架式AI服务器参考设计GB200。由于散热挑战与液冷系统泄漏等问题,GB200系统在2024年量产推进并不顺利,整体进度滞后于预期。随着英伟达与供应链合作逐步优化设计,并解决关键技术难题,24年底Blackwell平台开始进入爬坡阶段,开启对Hopper平台的替代。英伟达FY26Q1(2025年2月-4月)数据中心业务中近70%的收入已由Blackwell平台贡献。鸿海、广达等核心ODM供应商也普遍预计,GB200将在2025Q2加速放量,微软、Meta等多家云服务厂商也陆续部署新一代系统。 升级方案GB300有望于2025年下半年开启量产。英伟达在GTC 2025大会上披露,预计GB300将于2025年下半年量产上市。硬件方面,GB300采用12-Hi堆叠的HBM3e内存结构,每颗GPU配备288 GB显存,较GB200的192 GB提升50%。系统I/O也全面升级,整机网络带宽提升至1.6 Tbps,以满足更高并发推理的通信需求。在性能表现上,GB300 NVL72在FP4精度下的推理算力相较GB200 NVL72提升约1.5倍。为确保量产进度,英伟达此次在设计上回归稳定的Bianca板卡方案,并优化了液冷系统与供电模块。GB300将成为继GB200之后,又一轮AI服务器放量的关键驱动。 自研ASIC芯片不仅能够降低功耗,还能帮助CSP掌握AI基础设施的成本与供应链,避免过度依赖英伟达,因此自研ASIC正成为CSP的竞争关键。谷歌曾独占ASIC AI芯片市场,目前AWS、Meta、微软等企业也开始积极投入ASIC AI芯片开发。AWS的ASIC AI芯片Trainium 2在2024Q4开始量产,搭载该芯片的服务器则在2025Q1开始规模化出货,纬颖作为AWS ASIC服务器的核心供应商,营收大幅受益。AWS下一代Trainium 3晶片则预计在2025年底之前量产。 AI带动半导体进入新的成长期,先进制程、先进封装持续迭代 制程迭代是芯片算力提升的关键因素,AI算力需求的爆发催生了对先进制程的强需求。AI大模型发展对芯片算力提出更高要求,未来更成熟的AGI模型所需算力是现在GPT-4所需算力的1万倍。而解决高算力需求的一种方案是采用更为先进制程的芯片,因为芯片制程越先进,功耗越低、计算速度越快。如2nm芯片功耗约为16nm芯片的10%,而性能约为16nm芯片的2倍以上。台积电估计其即将推出的N2P节点的功耗可能比N3E节点低30-40%。 服务器需求将超过智能手机成为先进制程最主要的驱动力。历史上,智能手机的迭代更新推动了芯片制程的不断演进,但随着AI应用的计算需求上升,服务器成为主要的算力中心,且对高算力的追求使得其对先进制程呈现出越来越高的需求,AI芯片功耗较高,且需要更小的尺寸,因此AI芯片对先进制程的迫切需求将推动服务器需求成为先进制程最大的驱动力。Sumco估计,在AI服务器出货量强劲增长的推动下,服务器对先进制程晶圆的需求量最快将在2024年超过智能手机。 2025年是2nm量产交付元年,台积电已获得多家客户订单。台积电、三星、Intel均有望在2025年量产2nm制程,但目前Intel和三星主要用于生产自有产品,并未获得第三方客户的量产订单。Intel的18A将生产Panther Lake (PC CPU)和Clearwater Forest (服务器CPU),三星的SF2可能将获得自研处理器Exynos 2600的订单。台积电的2nm已获得多家客户订单,包括AMD的Venice(服务器CPU),苹果的A20/A20 Pro和M6系列,高通第三代8 Elite。此外,AWS、谷歌、微软未来的ASIC AI芯片在2nm节点上都大概率选择台积电。 先进制程面临物理约束瓶颈,先进封装成为提高芯片性能的重要解决方案。AI大发展使得算力需求爆发式增长,然而,随着半导体工艺尺寸进一步缩小,集成电路制造面临的挑战日益增大,摩尔定律日趋放缓,单位晶体管的成本不降反升,应用先进制程的芯片研发费用也大幅增长。先进封装通过异构集成,将多个芯粒(Chiplets)高密度连接在一起,整体性能提升不再依赖单一芯片支持,且大幅提升良率,降低成本,成为提供系统级性能提升的新路径。 CoWoS为HPC和AI计算领域广泛使用的先进封装技术。CoWoS是台积电推出的 2.5D封装技术,本质上是将多个芯片(如逻辑芯片+HBM)放置在一块硅中介层(interposer)上,再封装在基板上,2012年首先应用于Xilinx的FPGA上。此后,英伟达、AMD、谷歌等厂商的AI芯片均采用了CoWoS,例如A100、H100。如今CoWoS已成为HPC和AI计算领域广泛应用的2.5D封装技术,绝大多数使用HBM的高性能芯片,包括大部分创企的AI训练芯片都应用CoWoS技术。 AI持续高景气带动CoWoS需求不断提升。2023年一季度以来,AI服务器的需求不断增长,使台积电CoWoS封装产能紧缺。台积电一方面将制程分段委外,另一方面大幅扩产CoWoS产能。 HBM 3D堆叠提升内存性能,AI芯片广泛采用。随着数据的爆炸式增长,内存墙对于计算速度的影响愈发显现。为了减小内存墙的影响,提升内存带宽一直是存储芯片聚焦的关键问题。如同闪存从2D NAND向3D NAND发展一样,DRAM也正在从2D向3D技术发展,HBM为主要代表产品。与传统DRAM不同,HBM是3D结构,它使用TSV技术将数个DRAM裸片堆叠起来,形成立方体结构,与传统内存相比,HBM的存储密度更大、带宽更高,基本成为数据中心AI芯片的标配。 预计2028年全球先进封装市场规模增至786亿美元,2022-2028年CAGR达到10.0%。根据Yole数据,2022年全球封装市场中,先进封装占比已达到47%。预计到2028年,先进封装市场占比将增至58%,规模约为786亿美元,2022年-2028年CAGR约为10.0%,明显高于传统封装市场的2.1%和市场整体的6.2%。 晶圆代工龙头台积电打造先进封装工艺标杆,传统封测厂商亦纷纷加快转型步伐。台积电在先进封装上已取得了可观的收入体量,技术布局也进入关键节点,未来投入规模将持续加码。在OSAT厂商中,日月光VIPack先进封装平台包含六大核心技术,安靠推出FCMCM(倒装多晶片模组)、2.5D(TSV)等五大先进封装解决方案。国内长电先进聚焦bumping,Fan-out CSP晶圆级等先进封装,通富微电在2.5D/3D先进封装保持国内领先,深科技专注存储封测领域,并聚焦倒装工艺(Flip-chip)、POPt堆叠封装技术的研发。 内存带宽成为算力卡口,HBM需求紧迫迭代迅速 全球HBM(高带宽存储器)技术呈现“海外领跑、国内加速追赶”的双轨格局。海外市场由SK海力士、三星、美光三大巨头垄断95%以上份额:SK海力士凭借HBM3/3E量产优势稳居首位(市占率52.5%),其12层堆叠HBM4测试良率已突破70%,计划2025年量产;三星正加速优化HBM3E良率并推进HBM4研发,2024年通过AMD MI300系列验证后逐步放量;美光则聚焦HBM3e量产,但产能扩张略有滞后。国内HBM产业受地缘政策催化进入提速阶段。 从HBM的生产工艺来看,DRAM颗粒为定制的DRAM颗粒,工艺难点在于封测。TSV、大规模回流模塑底部填充(MR-MUF)、自对准、混合键合等工艺很大程度上影响HBM的性能和良率。 (1)TSV:不采用传统的布线方法来连接芯片与芯片,而是通过在芯片上钻孔并填充金属等导电材料以容纳电极来垂直连接芯片。制作带有TSV的晶圆后,通过封装在其顶部和底部形成微凸块(Micro Bumping),然后连接这些凸块。由于TSV允许凸块垂直连接,因此可以实现多芯片堆叠。最初,使用TSV接合的堆栈有4层,后来增加到8层。最近,一项技术使得堆叠12层成为可能,SK海力士于2023年4月开发了其12层HBM3。虽然TSV倒装芯片接合方法通常使用基于热压的非导电薄膜(TC-NCF),但SK海力士使用MR-MUF工艺,可以减少堆叠压力并实现自对准。这些特性使SK海力士能够开发出世界上第一个12层HBM3。 (2)MR-MUF:将半导体芯片堆叠起来,并将液体保护材料注入芯片之间的空间,然后硬化以保护芯片和周围电路的工艺。与在每个芯片堆叠后应用薄膜型材料相比,MR-MUF是一种更高效的工艺,并提供有效的散热。目前SK海力士主要使用MR-MUF工艺生产HBM2e/3/3e,使得其领先于三星电子和美光,后者主要采用TC-NCF工艺。MR-MUF工艺需要使用液态环氧树脂(EMC),目前全球仅日本namics独供。除EMC外,HBM封装还需要底部填充胶用于FC工艺,采用PSPI作为硅中介层中RDL的再钝化层,还需要IC载板、DAF、Solder ball等材料。 (3)自对准:在 MR-MUF工艺期间通过大规模回流将芯片重新定位到正确的位置。在此过程中,热量被施加到芯片上,导致相关凸块在正确的位置熔化并硬化。 (4)混合键合:C2W混合键合具有多种优势,①允许无焊料键合,减少键合层的厚度、缩短电气路径并降低电阻。因此,小芯片可以高速运行,就像单个芯片一样。②通过直接将铜与铜接合,可以显着减小凸块上的间距。目前,使用焊料时很难实现10 um或更小的凸块间距。然而,铜对铜直接键合可以将间距减小到小于1um,从而提高芯片设计的灵活性。③先进的散热功能。④上述的薄粘合层和细间距影响了封装的形状因数,可以大大减小封装尺寸。目前混合键合主要用于单层键合或两个芯片面对面堆叠,SK海力士2022年用混合键合完成了8层HBM2e的堆叠,正在开发用于更高密度、高堆叠HBM的混合键合。 需求紧俏,HBM持续挤压DRAM产能。从需求端看,云计算厂商将更多资本开支投入AI基础设施,2024年北美CSP的资本开支增速在55%,主要来自AI推动,传统服务器需求基本持平,25Q1同比增长64%,预计2025年CSP资本开支维持大幅增长。算力需求的快速增长,算力卡的数量和配置快速升级,最终带来的是算力芯片和HBM需求的快速增长。结合海外存储厂商和咨询机构的预测, 2024年HBM市场规模达到160亿美金,同比增长300%,预计2025年达到320亿美金,同比增长100%。从供给端看,HBM供应仍然紧缺,在传统DRAM库存波动的情况下,HBM由于AI服务器的强劲需求,挤占DRAM产能的现象还在持续。 HBM快速迭代,HBM4即将进入量产。结构上,2025年HBM3e将占据主导,根据SK海力士,2024年其HBM3e收入将占HBM收入一半以上,2025年12层HBM3e供给量将超过8层产品,12层HBM4计划于25H2发货。(1)HBM3e:三大原厂相继推出12Hi产品,这些12Hi的HBM预计用在英伟达的B300A(B200A Ultra)和B300上。(2)HBM4:三星、海力士计划24Q4开始HBM4的流片,预计2026年用在英伟达下一代的Rubin芯片上。 模型推理时代到来,ASIC需求爆发,看好ASIC服务器PCB厂商 推理时代即将到来,推理将成为AI算力需求的新动力。英伟达首席执行官黄仁勋在2025年GTC的主题演讲中提到,随着AI行业在模型训练上的需求放缓,叠加DeepSeek在模型推理上所作的创新,AI推理时代即将到来。相较于传统的生成式AI主要以语言大模型与聊天机器人的形式呈现、聚焦生成文本和图像内容等,AI Agent能理解任务、进行复杂推理、制定计划并自主执行多步骤操作,由于AI Agent解决复杂问题、分解任务每一步的逻辑思考过程都需要用到模型推理,因此推理将成为AI新阶段的核心动力。 低成本是AI推理爆发的必要条件,北美CSP厂商均加速研发ASIC的步伐。大模型推理时代相较于移动互联网时代,底层逻辑发生了巨大变化。推理系统的成本几乎和客户使用量成线性关系,因此边际成本很高,且成本绝大部分是推理的算力消耗。因此,在大模型时代,能将推理成本降到极致的厂商有望获得最终的胜利。目前北美四大CSP厂商,除了继续采用英伟达GPU做模型训练之外,均在加速开发自家的ASIC产品,一方面因英伟达的GPU价格昂贵,硬件投入成本过高,另一方面,自研ASIC可针对特定需求进行优化,也能针对特定的应用进行设计,因此对于能耗或电力管理的控制将更加精准,此外,从供应链安全角度,也可以避免算力资源都来自英伟达、AMD等GPU厂商的风险。在同等预算下,AWS的Trainium 2可以比英伟达的H100 GPU更快速完成推理任务,且性价比提高了30%~40%。2025年底计划推出的Trainium3,其计算性能更是提高了2倍,能效有望提高40%。谷歌的TPU v5芯片在Llama-3推理场景中,单位算力成本较H100降低了70%。根据IDC数据,微软Azure自研ASIC后,硬件采购成本占比从75%降至58%,摆脱长期被动的议价困境。 在Google Cloud Next 25大会上,谷歌又推出了第七代张量处理单元(TPU v7)Ironwood,它是谷歌迄今为止性能最高、可扩展性最强的定制ASIC芯片,也是首款专为推理而设计的加速器。Ironwood的每瓦性能是谷歌去年发布的第六代TPU Trillium的两倍,HBM容量及双向带宽均大幅提升。谷歌ASIC服务器计算板上有四个Ironwood TPU,这个与之前TPU v5计算板架构一样。 博通和Marvell均看好ASIC市场需求。博通和Marvell是ASIC定制领域的主要玩家,二者在AI定制芯片中占据了超70%的市场份额。博通定制的ASIC芯片广泛应用于数据中心、云计算、高性能计算(HPC)、5G无线基础设施等领域,根据博通最新财报,2025Q1公司AI芯片收入占比50%,同比增长77%,其中ASIC相关收入占比60%。博通认为XPU的需求会持续上涨,公司预计2025年下半年ASIC收入占比会持续上升,主要是因为推理模型需求增长使得AI芯片业务增速加快。Marvell的ASIC业务也成为公司强劲增长的核心动力之一。2024年12月初,Marvell与AWS达成了一项为期五年的战略合作协议,包括帮助亚马逊设计自有AI芯片。伴随AWS芯片的量产,Marvell在2025Q1实现营收18.95亿美元,同比增长63%,创历史新高。Marvell也预测,随着AI计算需求的增长,公司ASIC占比有望提升至25%,预计2028年数据中心ASIC市场规模将提升至429亿美元。 中国ASIC服务器市场增速超40%。中国ASIC服务器市场未来在中国市场,由于部分高端GPU产品受供应的限制,出现了算力缺口,另外中国头部的互联网企业为了降低成本以及更好地适配自身业务场景,也增大了自研ASIC芯片服务器的部署数量。IDC预测,2024年中国加速服务器市场规模将达到190亿美元,同比2023年增长87%。其中GPU服务器依然是主导地位,占据74%的市场份额。到2028年,中国加速计算服务器市场规模将超过550亿美元,其中ASIC加速服务器市场占比将接近40%。 随云厂商积极自研ASIC芯片,ASIC正成为AI服务器市场中与GPU并行的重要架构,进一步带动高阶PCB的需求。金像电为全球服务器PCB第一大厂,也是ASIC服务器放量时PCB企业中的最大受益者。金像电的产品已经切入北美四大CSP,涵盖UBB、OAM(加速器模组)所需要的HDI、厚铜板等。根据金像电25Q1法说会资料,公司25Q1单季度实现收入29.52亿元,创历史新高,其中服务器收入占比持续提升,到72%。在传统服务器市场温和复苏背景下,金像电业绩高增核心来自于云厂商ASIC服务器PCB订单,根据公司交流,2024年AI产品占比已达20%,未来将持续提升。 根据Semianalysis数据,亚马逊第二代推理芯片Trainium2的计算托盘中使用了2个Trainium2的芯片,即用到2个OAM,下面是一块UBB板。UBB为采用了M8规格覆铜板材料的28层高多层板,OAM为M6/M7的三阶HDI,往下一代Trainium3迭代的过程中,UBB中层数、OAM层数及阶数均会进一步提升。 展望2025年,除AWS外,谷歌、meta的新产品中,ASIC服务器UBB层数均将向30层板以上推进,制作难度加剧,也将进一步推动ASP的提升,ASIC服务器PCB将迎来量价齐升阶段,同时也将拉动上游高规格(M8等)覆铜板的需求。 证券研究报告名称:《2025年中期投资策略报告:端侧AI爆发可期,国产高端产能亟需突破》 对外发布时间:2025年6月17日 报告发布机构:中信建投证券股份有限公司 本报告分析师: 刘双锋 SAC 编号:S1440520070002 庞佳军 SAC 编号:S1440524110001 孙芳芳 SAC 编号:S1440520060001 章合坤 SAC 编号:S1440522050001 郭彦辉 SAC 编号:S1440520070009 王定润 SAC 编号:S1440524060005 何昱灵 SAC 编号:S1440524080001 AI兴起拉动小体积、高容值MLCC需求量快速增长 电容器行业发展过去主要依赖传统电子行业,MLCC主要受消费电子行业景气度的影响,周期性显著。近年来,新能源行业快速发展,国产厂商在下游新能源汽车、光伏、风电、储能等领域占据全球主要市场份额,从而带动上游被动元件的高速增长,AI化对应MLCC用量尤其是高规格MLCC需求量的快速增长。 GPU算力需求增加,MLCC成为保障高算力设备稳定运行的关键组件。当前,GPU和CPU的算力需求快速增长,为保障高算力设备的安全运行,MLCC在电路中承担了重要责任。服务器供应电流是48V或54V的直流电源,GPU、CPU的供应电流主要是12V或者更高,中间需要多路电源转变,电容发挥稳定电压作用。此外,随着晶体管数量的迅速增加,高算力设备的功耗也不断攀升。以英伟达为例,GB 200晶体管数量达到2000亿,工作功率大幅提升,GPU电路板上的电容数量因此激增,每块板可能使用超过1200个电容,这使得电容成为保障GPU正常工作的核心元件。 高容值、高耐温、小型化电容需求进一步提升。在高算力AI发展的需求下,功率大幅提升,但载板空间有限,为适应AI应用带来的电路改变,MLCC产品的变化主要体现在4方面:首先,高算力GPU/CPU需要的电容数量更多,在面积有限的板子上,电容要在更小体积中实现更大容值;其次,功耗增加导致电路系统温度升高,电容需具备更高的耐温性;三是,高功率条件下,大电流带来大纹波,对电容的低等效串联电阻(ESR)提出了更高要求;四是GPU/CPU的高频工作特性要求电容具有低等效串联电感(ESL)及高自谐振频率(SRF)。这些技术挑战反映出被动元器件需持续优化以适应高算力时代的需求,对上游厂商来说,这要求更细、耐高温的陶瓷粉料,以满足小体积大容量的高容值电阻的要求。 AI服务器拉动高容值MLCC需求量增加。与传统服务器相比,AI服务器MLCC用量显著增加,AI服务器MLCC用量大约是传统服务器的两倍,另外AI服务器算力需求增加,功率、电耗等要求随之提高,高容值、高耐温的MLCC产品单位用量增加。Trend Force集邦咨询表示,以英伟达GB200服务器为例,系统主板MLCC总用量高达三、四千颗,不仅较通用服务器增加一倍,1u以上用量占60%,耐高温用量高达85%,系统主板MLCC总价也增加一倍。Trend Force预测,2024年人工智能服务器全年出货量将达到167万台,同比增长41.5%。 根据Trend Force集邦咨询最新调查报告显示,2024年整体服务器市场产值估约达3060亿美元。其中,AI服务器成长动能优于一般型服务器,产值约为2050亿美元,AI服务器出货量同比增长46%。Trend Force预估2025年AI服务器出货量年成长率将达近28%,占整体服务器出货比重将进一步提升至15%以上。 AI PC需求持续增长,持续推动高端MLCC需求。一台传统笔记本电脑大约需要1000个MLCC,以英特尔为代表的CPU厂商正在力推具备AI算力的PC产品,新增了如神经处理单元(Neural Processing Unit,NPU)的功能模块,以提高整体运算性能,需要增加NPU供电线路,每台PC需要增加约90~100个MLCC。主要采用高通公版设计的Windows on Arm(WoA)笔记本电脑尽管采用低能耗见长的精简指令集(RISC)架构(ARM)设计架构,但其整体MLCC用量却高达1160至1200颗,这一数字与英特尔高端商务机型相当,其中高容值MLCC的用量占比高达八成。根据村田数据,AI PC单机MLCC用量提升40-60%,达到1400-1600颗。 预测2030年AI PC用MLCC约4000亿颗,年均增速超30%。据Canalys数据预测,2024全球AIPC出货量将达到4800万台,占个人PC总出货量的18%,预计到2025年,AIPC出货量将超过1亿台,占PC总出货量的40%,到2028年AIPC出货量将达到2.05亿台,渗透率达到约70%。2030年,预计全球AI PC用MLCC约4000亿颗,年均增速超30%。 AI手机需求高增,预计2030年用量超1.6万亿颗,年均复合增速超30%。据村田数据显示,4G高端手机MLCC用量为900-1100颗,而5G高端手机中用量将提升到990-1320颗,AI手机单机用量将提升20%,达到1300-1500颗。根据Canalys报告,预计2024年全球16%的智能手机出货为AI手机,到2028年,这一比例将激增至54%;IDC预测,到2025年,全球市场中三分之一的手机将成为新一代AI手机,中国市场到2028年AI手机占比可能超过80%。受消费者对AI助手和端侧处理等增强功能需求的推动,AI手机渗透率快速增长,Canalys预计这一转变将先出现在高端机型上,然后逐渐为中端智能手机所采用,手机用MLCC逐步转向高端。 AI发展,高端MLCC及原材料需求放量。随着AI终端渗透率的不断提升,高端MLCC用量快速增长,带来上游高端原材料需求爆发,以MLCC用镍粉为例,假设每亿颗MLCC用纳米镍粉0.22吨,预计新能源及AI领域用MLCC需求量从2023年的约3000亿颗增长至2030年的近3万亿颗,高端MLCC用纳米镍粉需求量从不足千吨增长至超6千吨。 电感:芯片电感在AI算力时代的崛起与应用 三大被动元件之一,电子世界中的“能量缓冲器”。电感是三大被动元件之一,又称线圈、扼流器、电抗器等,能把电能转化为磁能而存储起来,结构类似于变压器,当电流通过电感器的线圈时,会在其周围形成磁场,这个磁场又会反过来影响线圈中的电流,形成电感效应。电感器正是利用这一原理,实现对电路中电流的调节和控制。其特性是“通直流、阻交流”,主要作用包括储能、筛选信号、过滤噪声、稳定电流及抑制电磁波干扰(EMI) 等,还可与电容一起组成LC滤波电路。电感器的应用领域广泛,涵盖电源管理、信号处理、通信、汽车电子、消费电子等多个领域。 算力时代,AI芯片电感大显身手 随着高性能计算(HPC)系统,特别是AI服务器的市场规模不断扩大,其核心处理器,包括CPU、GPU、NPU、ASIC、FPGA等,以及内存、网络通信等芯片元器件的性能和功耗水平都在提升。AI服务器中,CPU、GPU、内存等及各种接口都需要供电,因此电源管理系统就显得非常重要,功率管理水平的提升显得更加重要。 小型化、大功率、高频率场景日益丰富,芯片电感大展身手。芯片电感是一种特殊形式的一体成型电感,其尺寸微小,但性能优越,广泛应用于各类集成电路中,起到为GPU、CPU、ASIC、FPGA等芯片前端供电的作用。AI快速发展导致对于算力的要求爆发增长,传统的铁氧体电感体积和饱和特性满足不了高性能GPU的要求,金属软磁粉或羰基铁粉制作的芯片电感具有体积小、效率高、散热好等优点,可以更好适应芯片低电压、大电流、大功率场景,耐受大电流冲击,开关频率可达500kHz~10MHz,更加适用于AI服务器、AI PC 、AI 手机、智能驾驶、AI机器人、DDR等大算力应用场景。 AI发展拉动GPU销量激增和迭代加速,引发对芯片电源模块的批量供应和性能升级的双重需求。根据华为《智能世界2030》报告预测,2030年,人类将迎来YB 数据时代,2020年通用算力将增长10倍到3.3ZFLOPS,AI算力将增长500倍超过100ZFLOPS。算力需求的爆发式增长,直接引致AI服务器的出货量和占比的加速提升。根据Trend Force公布的《AI服务器产业分析报告》,预估2024年AI服务器出货量可上升至167万台,年增长率达41.50%,预估2024年AI服务器产值将达1870亿美元,在服务器中的整体占比高达65%。GPU作为AI服务器的核心算力芯片,占据目前AI芯片市场80%以上的市场份额,AI产业的快速发展直接拉动GPU的销量激增和迭代加速,继而引发了对芯片电源模块的批量供应和性能升级的双重需求。 算力提升,大功率场景催生芯片电感需求。以英伟达的GPU为例,其2022年推出的型号为H100SXM的GPU的算力指标TF32和FP16分别为0.49PFLOPS和0.99PFLOPS,而其拟推出的B200 GPU的TF32和FP16分别提高至1.12PFLOPS和2.25PFLOPS,其功耗水平亦由700W增加至1000W,虽然单位算力的能耗有所降低,但单体GPU的能耗水平仍增长明显,对芯片电源模块的供电能力和质量要求随之提升,进而对芯片电源的核心元件芯片电感也提出了更高的用量和性能需求。 算力下沉,AI PC和AI手机是芯片电感最具潜力的需求增长市场。PC及手机也用相当数量的一体成型电感,传统PC电感数量有10-30颗,村田称智能手机大概采用50颗左右一体成型电感,AI PC和AI手机虽然算力需求相较于云端AI较小,目前尚未实现金属软磁芯片电感的替代。随着未来算力下沉,AI PC和AI手机CPU/GPU等核心芯片算力和功率都会有进一步的提升,对更高效率、小体积、高可靠性和大功率的芯片电感需求也将逐步体现并替代传统电感。并且,传统铁氧体难以7*24小时稳定运行,电流波动大,影响数据传输,芯片电感能节省PCB板面积,有利于轻薄设计,对传统铁氧体电感替代是趋势。在总量上,AI手机和AI PC的电感需求总量要高于数据中心GPU市场,是未来芯片电感需求最具增长潜力的市场。 据Canalys数据预测,2024全球AI PC出货量将达到4800万台,占个人PC总出货量的18%,预计到2025年,AIPC出货量将超过1亿台,占PC总出货量的40%,到2028年AIPC出货量将达到2.05亿台,渗透率达到约70%,2024-2028年期间的复合年增长率将超40%。根据Canalys报告,预计2024年全球16%的智能手机出货为AI手机,到2028年,这一比例将激增至54%。 芯片电感壁垒高,认证周期长,竞争格局好。芯片电感最上游是粉体制造,一般由超细雾化合金粉、羰基铁粉、非晶粉等单独或混合使用,超细雾化合金粉、羰基铁粉制备具有较高壁垒,粒径大小、表面性能、一致性等要求较高。另外传统绕线电感在磁粉芯外绕铜线而成,芯片电感将采取铜铁共烧工艺提高机械强度。下游客户认证周期较强,具有较高的准入壁垒。 电阻:市场空间相对较小,市场集中度高 随着AI终端和AI服务器的快速发展,对电阻的需求和性能要求也在显著提高。AI终端的功率和工作电流不断提升,通常需要使用低阻值、高功率、高精度的电流感测电阻,以满足更精细化的电流检测需求,并保证检测的准确性和可靠性。如AI终端要求电阻具备超低容差、超低温漂、更大工作温度范围等。 证券研究报告名称:《AI使高端被动元件需求激增,相关金属新材料迎发展机遇》 对外发布时间:2025年2月18日 报告发布机构:中信建投证券股份有限公司 本报告分析师: 王介超 SAC 编号:S1440521110005 覃静 SAC 编号:S1440524080002 郭衍哲 SAC 编号:S1440524010001 邵三才 SAC 编号:S1440524070004
8月22日,上证指数涨1.45%站上3800点,算力、芯片股集体爆发。近期国产算力板块迎来密集催化,8月13日,腾讯业绩会表示公司推理芯片供应渠道侧具备多种选择;8月21日,DeepSeek更新模型版本至DeepSeek-V3.1,预计将支持FP8精度以及国产芯片;近期,基于华为昇腾芯片的服务器产品陆续在政府、金融、运营商等行业落地大单。
国产人工智能芯片发展趋势及展望
海外龙头占据垄断地位,AI加速芯片市场呈现“一超多强”态势。数据中心CPU市场上,英特尔份额有所下降但仍保持较大领先优势,AMD持续抢占份额势头正盛。AI加速计算芯片市场上,英伟达凭借硬件优势和软件生态一家独大,在训练、推理端均占据领先地位。根据IDC数据,2024年国内AI加速计算芯片市场中,英伟达出货份额达70%,华为昇腾出货份额23%,其余厂商合计占比7%。国内厂商起步较晚,正逐步发力,部分加速芯片领域已经涌现出一批破局企业,虽然在高端AI加速计算芯片领域与海外厂商存在较大差距,但在国内市场上已经开始取得部分份额,根据IDC数据,2024年国内AI芯片市场中,华为昇腾出货64万片,寒武纪出货2.6万片,燧原出货1.3万片。未来,随着美国持续加大对中国高端芯片的出口限制,AI芯片国产化进程有望继续加快。
GPU市场方面,海外龙头占据垄断地位,国产厂商加速追赶。当前英伟达、AMD、英特尔三巨头占据全球GPU芯片市场的主导地位。集成GPU芯片一般在台式机和笔记本电脑中使用,性能和功耗较低,主要厂商包括英特尔和AMD。独立显卡常用于服务器中,性能更高、功耗更大,主要厂商包括英伟达和AMD。分应用场景来看,应用在人工智能、科学计算、视频编解码等场景的服务器GPU市场中,英伟达和AMD占据主要份额。根据JPR预测,2025年Q1英伟达的独立显卡(包括AIB 合作伙伴显卡)的市场份额达92%, AMD和英特尔则分别占比8%、0%。
图形渲染GPU:英伟达引领行业数十年,持续技术迭代和生态构建实现长期领先。2006年起,英伟达GPU架构保持约每两年更新一次的节奏,各代际产品性能提升显著,生态构建完整,GeForce系列产品市占率长期保持市场首位,最新代际GeForce RTX 40系列代表了目前显卡的性能巅峰,采用全新的Ada Lovelace架构,台积电5nm级别工艺,拥有760亿晶体管和18000个CUDA核心,与Ampere相比架构核心数量增加约70%,能耗比提升近两倍,可驱动DLSS 3.0技术。性能远超上代产品。AMD独立GPU在RDNA架构迭代路径清晰,RDNA 3架构采用5nm工艺和Chiplet设计,比RDNA 2架构有54%每瓦性能提升。目前国内厂商在图形渲染GPU方面与国外龙头厂商差距不断缩小。芯动科技的“风华2号”GPU像素填充率48GPixel/s,FP32单精度浮点性能1.5TFLOPS,AI运算(INT8)性能12.5TOPS,实测功耗4~15W,支持OpenGL4.3、DX11、Vulkan等API,实现国产图形渲染GPU突破。景嘉微在工艺制程、核心频率、浮点性能等方面虽落后于英伟达同代产品,但差距正逐渐缩小。2023年顺利发布JM9系列图形处理芯片,支持OpenGL 4.0、HDMI 2.0等接口,以及H.265/4K 60-fps视频解码,核心频率至少为1.5GHz,配备8GB显存,浮点性能约1.5TFlops,与英伟达GeForce GTX1050性能相近,有望对标GeForce GTX1080。
GPGPU:英伟达和AMD是目前全球GPGPU的领军企业。英伟达的通用计算芯片具备优秀的硬件设计,通过CUDA架构等全栈式软件布局,实现了GPU并行计算的通用化,深度挖掘芯片硬件的性能极限,在各类下游应用领域中,均推出了高性能的软硬件组合,逐步成为全球AI芯片领域的主导者。AMD于2018年发布用于数据中心的Radeon Instinct GPU加速芯片,Instinct系列基于CDNA架构,如MI250X采用CDNA2架构,在通用计算领域实现计算能力和互联能力的显著提升,此外还推出了对标英伟达CUDA生态的AMD ROCm开源软件开发平台。
国内GPGPU厂商正逐步缩小与英伟达、AMD的差距。英伟达凭借其硬件产品性能的先进性和生态构建的完善性处于市场领导地位,国内厂商虽然在硬件产品性能和产业链生态架构方面与前者有所差距,但正在逐步完善产品布局和生态构建,不断缩小与行业龙头厂商的差距。
ASIC市场方面,由于其一定的定制化属性,市场格局较为分散。在人工智能领域,ASIC也占据一席之地。其中谷歌处于相对前沿的技术地位,自2016年以来,就推出了专为机器学习定制的ASIC,即张量处理器(Tensor Processing Unit,TPU)。2025年谷歌推出了第七代张量处理单元(TPU)Ironwood,可扩展至9216个液冷芯片,并通过突破性的芯片间互联,功率接近10兆瓦。据nextplatform介绍,TPU v7p芯片是谷歌首款在其张量核心和矩阵数学单元中支持FP8计算的TPU。之前的TPU支持INT8格式和推理处理,以及BF16格式和训练处理。Ironwood芯片还配备了第三代SparseCore加速器,该加速器首次亮相于TPU v5p,并在去年的Trillium芯片中得到了增强。
国产厂商快速发展,寒武纪等异军突起。通过产品对比发现,目前寒武纪、海思昇腾、遂原科技等国产厂商正通过技术创新和设计优化,持续提升产品的性能、能效和易用性,推动产品竞争力不断提升,未来国产厂商有望在ASIC领域持续发力,突破国外厂商在AI芯片的垄断格局。
生态体系决定用户体验,是算力芯片厂商最深的护城河。虽然英伟达GPU本身硬件平台的算力卓越,但其强大的CUDA软件生态才是推升其GPU计算生态普及的关键力量。从技术角度来讲,GPU硬件的性能门槛并不高,通过产品迭代可以接近龙头领先水平,但下游客户更在意能不能用、好不好用的生态问题。CUDA推出之前GPU编程需要用机器码深入到显卡内核才能完成任务,而推出之后相当于把复杂的显卡编程包装成为一个简单的接口,造福开发人员,迄今为止已成为最发达、最广泛的生态系统,是目前最适合深度学习、AI训练的GPU架构。英伟达在2007年推出后不断改善更新,衍生出各种工具包、软件环境,构筑了完整的生态,并与众多客户合作构建细分领域加速库与AI训练模型,已经积累300个加速库和400个AI模型。尤其在深度学习成为主流之后,英伟达通过有针对性地优化来实现最佳的效率提升性能,例如支持混合精度训练和推理,在GPU中加入Tensor Core来提升卷积计算能力,以及最新的在H100 GPU中加入Transformer Engine来提升相关模型的性能。这些投入包括了软件和芯片架构上的协同设计,使得英伟达能使用最小的代价来保持性能的领先。而即便是英伟达最大的竞争对手AMD的ROCm平台在用户生态和性能优化上还存在差距。CUDA作为完整的GPU解决方案,提供了硬件的直接访问接口,开发门槛大幅降低,而这套易用且能充分调动芯片架构潜力的软件生态让英伟达在大模型社区拥有巨大的影响力。正因CUDA拥有成熟且性能良好的底层软件架构,几乎所有的深度学习训练和推理框架都把对于英伟达GPU的支持和优化作为必备的目标,帮助英伟达持续处于领先地位。
美国对华供应AI芯片管制强度持续升级,H20被纳入管制范围。2022年,美国BIS实施出口管制,英伟达和AMD的高端GPU产品出口受到限制。为满足合规要求,英伟达随后推出了面向中国市场的H800与A800,互联带宽被下调。2023年,BIS公布的先进计算芯片出口管制新规进一步扩大限制范围,以“性能密度”与“总处理性能(TPP)”成为新的标准,使得A100、A800、H100、H800、L40、L40S等多款产品遭到限制。虽然英伟达又推出了性能大幅下调,符合新规的H20,但H20也在今年4月被美国纳入出口管制。
国产算力芯片迎来国产替代窗口期。考虑到英伟达新品迎来大幅性能升级,并面向中国市场禁售,国产算力芯片发展刻不容缓。当前已经涌现出一大批国产算力芯片厂商,昇腾、寒武纪相继推出自研AI芯片,海光信息的DCU也逐渐打出知名度,其他配套环节的国产化进程也正在加速推进。
证券研究报告名称:《AI新纪元:砥砺开疆・智火燎原》
对外发布时间:2025年7月24日
报告发布机构:中信建投证券股份有限公司
本报告分析师:
黄文涛 SAC 编号:S1440510120015
SFC 编号:BEO134
阎贵成 SAC 编号:S1440518040002
SFC 编号:BNS315
程似骐 SAC 编号:S1440520070001
SFC 编号:BQR089
崔世峰 SAC 编号:S1440521100004
SFC 编号:BUI663
贺菊颖 SAC 编号:S1440517050001
SFC 编号:ASZ591
黎韬扬 SAC 编号:S1440516090001
刘双锋 SAC 编号:S1440520070002
刘永旭 SAC 编号:S1440520070014
SFC 编号:BVF090
庞佳军 SAC 编号:S1440524110001
陶亦然 SAC 编号:S1440518060002
王在存 SAC编号:S1440521070003
许琳 SAC 编号:S1440522110001
SFC 编号:BVU271
许光坦 SAC 编号:S1440523060002
杨艾莉 SAC 编号:S1440519060002
SFC 编号:BQI330
叶乐 SAC 编号:S1440519030001
SFC 编号:BOT812
应瑛 SAC 编号:S1440521100010
SFC 编号:BWB917
于芳博 SAC 编号:S1440522030001
SFC 编号:BVA286
袁清慧 SAC编号:S1440520030001
SFC编号:BPW879
赵然 SAC 编号:S1440518100009
SFC 编号:BQQ828
朱玥 SAC 编号:S1440521100008
SFC 编号:BTM546
腾讯业绩会表示未来推理芯片供给有望多元化,利好国产算力芯片厂商。8月13日,腾讯控股发布2025Q2业绩并举办说明会,会上腾讯总裁刘炽平表示当前公司AI芯片储备足以支持现有模型的训练及迭代升级;元宝、AI搜索等多个应用场景的用户数提升带来推理负载占比提升,公司一方面通过模型轻量化和软件优化来控制推理成本,另一方面公司在推理芯片的供应渠道侧也具备多种选择。当前海外高端芯片贸易政策仍存较大不确定性,腾讯有望依托华为、寒武纪、海光等国产厂商的推理芯片满足相关算力需求。
DeepSeek V3.1发布,预计支持FP8精度以及国产芯片。据官方公众号,DeepSeek今日正式发布DeepSeek-V3.1。目前官网与网页端模型已升级至最新版本,且新模型已在Huggingface开源。新版本模型主要升级体现在以下维度:(1)一个模型同时支持思考模式与非思考模式;(2)相比前代模型,新模型思考模式下能在更短时间内给出答案;(3)通过Post-Training优化,新模型具备更强的Agent能力。除去功能升级,新版本模型使用了UE8M0 FP8 Scale参数精度,该参数代表模型支持转为矩阵乘法等AI核心运算优化设计的FP8精度格式。相比FP16格式,FP8在同等芯片面积下能够实现翻倍性能,且功耗和带宽需求更低。此外,DeepSeek表示新精度格式针对即将发布的下一代国产芯片设计,表明未来基于DeepSeek模型的训练与推理有望更多应用国产AI芯片,助力国产算力生态加速建设。
华为昇腾芯片加速突围,国产芯片市场竞争力逐步提升。近期,基于华为昇腾芯片的服务器产品陆续在政府、金融、运营商等行业落地大单。上海浦发银行大模型算力扩容项目招标中,包含176台鲲鹏+昇腾配置的智算服务器;新疆疆算万卡枢纽型智算中心项目招标中,包含4500台昇腾910C-2服务器集群;中国移动2025-2026推理AI计算设备招标中,包含5000套CANN生态设备,即基于昇腾异构计算架构和昇腾芯片的服务器产品。由于海外供应链风险持续,国产芯片厂商产品性价比持续提升,更多算力需求有望由国产芯片支持,国产芯片市场竞争力持续提升。
投资建议:国产算力板块迎来密集催化,腾讯业绩会表示推理芯片的供应渠道侧具备多种选择,国际供应链波动背景下国产推理算力芯片有望提供助力。DeepSeek更新模型,明确支持FP8精度与将发布的下一代国产芯片,头部国产开源模型对国产芯片的支持有望推动国产算力生态加速落地。华为昇腾芯片近期陆续参与到政府、金融、运营商等行业客户招投标产品中,印证国产芯片竞争力持续提升。
证券研究报告名称:《DeepSeek-V3.1发布,建议关注国产算力板块》
对外发布时间:2025年8月21日
报告发布机构:中信建投证券股份有限公司
本报告分析师:
应瑛 SAC 编号:S1440521100010
SFC 编号:BWB917
王嘉昊SAC 编号:S1440524030002
中期维度看,订单向国产芯片倾斜式必然趋势。由于美国政府芯片法案多轮制裁,英伟达旗舰芯片向中国的售卖持续受阻,从2022年的片间互联、23年的算力以及算力密度限制、到2025年初的1700GB/s通信带宽限制,英伟达产品被迫多次进行阉割,竞争力持续下降。云厂商以及人工智能初创公司基于算力稳定供应诉求,将更多算力采购规划倾斜向国产芯片,并且比重不断加大。尽管后续依旧存在推出满足BIS需求的定制版中国芯片,但其市场竞争力则存在较大疑问。 目前国产芯片市场集中度提升趋势明显。由寒武纪、华为为代表的芯片公司凭借强大的技术实力、优异的产品性能、以及前线业务资源的大量投入,最先实现商业化客户业务的成功落地,在大模型推理算力建设中贡献大量算力;以天数智芯、沐曦、昆仑芯为代表的创业公司也在奋起直追,通过良好的产品性能以及性价比,争取大规模商业化客户成单机会,近期可以观察到国内芯片厂商纷纷投入大量人力物力资源,尝试与多家头部互联网客户进行业务绑定。 国内芯片生态建设分为两大路线,一条是以天数智芯、沐曦、海光等主打GPGPU路线,追求与英伟达的CUDA兼容,实现兼容性与通用性提高,在客户处实现迁移成本与迁移时间大幅度下降,在英伟达的生态圈内抢占市场。后续CUDA升级或模型升级,CUDA兼容路线软件栈同样需要更新升级以适配,长期跟进对人力消耗较大;另一条则是以华为的Mindspore为代表的自主生态,试图在英伟达生态圈外建立单独生态圈,与英伟达进行竞争。其后续突围能力,除技术成熟度外,更多考量产品出货量与基于Mindspore开发的研发人员数量,对长期持续投入具有较高要求。 随着国内算力消耗快速增长(典型如字节跳动,每三个月token消耗接近翻一倍,5月底为16.4万亿token),我们预计国内各家大型云厂商在日均token消耗达到30万亿token时会感受到算力紧张,在达到60万亿token时会开始出现一定算力缺口。我们认为国内增速斜率更陡峭,国产芯片今年将迎来发展大年。 证券研究报告名称:《人工智能2025中期投资策略报告:推理走向舞台中央,自主可控大势所趋,Agent及多模态加速》 对外发布时间:2025年6月16日 报告发布机构:中信建投证券股份有限公司 本报告分析师: 于芳博 SAC 编号:S1440522030001 SFC 编号:BVA286 庞佳军 SAC 编号:S1440524110001 方子箫 SAC 编号: S1440524070009 辛侠平 SAC 编号:S1440524070006 算力芯片快速升级,高端产能于周期底部积极扩产 算力硬件平台开始向新方案过渡,英伟达Blackwell与CSP ASIC放量 GB200服务器进入规模化量产阶段,Blackwell将接替Hopper成为出货主力。在GTC 2024大会上,英伟达正式发布了新一代Blackwell架构AI芯片,并推出了基于该架构的新型机架式AI服务器参考设计GB200。由于散热挑战与液冷系统泄漏等问题,GB200系统在2024年量产推进并不顺利,整体进度滞后于预期。随着英伟达与供应链合作逐步优化设计,并解决关键技术难题,24年底Blackwell平台开始进入爬坡阶段,开启对Hopper平台的替代。英伟达FY26Q1(2025年2月-4月)数据中心业务中近70%的收入已由Blackwell平台贡献。鸿海、广达等核心ODM供应商也普遍预计,GB200将在2025Q2加速放量,微软、Meta等多家云服务厂商也陆续部署新一代系统。 升级方案GB300有望于2025年下半年开启量产。英伟达在GTC 2025大会上披露,预计GB300将于2025年下半年量产上市。硬件方面,GB300采用12-Hi堆叠的HBM3e内存结构,每颗GPU配备288 GB显存,较GB200的192 GB提升50%。系统I/O也全面升级,整机网络带宽提升至1.6 Tbps,以满足更高并发推理的通信需求。在性能表现上,GB300 NVL72在FP4精度下的推理算力相较GB200 NVL72提升约1.5倍。为确保量产进度,英伟达此次在设计上回归稳定的Bianca板卡方案,并优化了液冷系统与供电模块。GB300将成为继GB200之后,又一轮AI服务器放量的关键驱动。 自研ASIC芯片不仅能够降低功耗,还能帮助CSP掌握AI基础设施的成本与供应链,避免过度依赖英伟达,因此自研ASIC正成为CSP的竞争关键。谷歌曾独占ASIC AI芯片市场,目前AWS、Meta、微软等企业也开始积极投入ASIC AI芯片开发。AWS的ASIC AI芯片Trainium 2在2024Q4开始量产,搭载该芯片的服务器则在2025Q1开始规模化出货,纬颖作为AWS ASIC服务器的核心供应商,营收大幅受益。AWS下一代Trainium 3晶片则预计在2025年底之前量产。 AI带动半导体进入新的成长期,先进制程、先进封装持续迭代 制程迭代是芯片算力提升的关键因素,AI算力需求的爆发催生了对先进制程的强需求。AI大模型发展对芯片算力提出更高要求,未来更成熟的AGI模型所需算力是现在GPT-4所需算力的1万倍。而解决高算力需求的一种方案是采用更为先进制程的芯片,因为芯片制程越先进,功耗越低、计算速度越快。如2nm芯片功耗约为16nm芯片的10%,而性能约为16nm芯片的2倍以上。台积电估计其即将推出的N2P节点的功耗可能比N3E节点低30-40%。 服务器需求将超过智能手机成为先进制程最主要的驱动力。历史上,智能手机的迭代更新推动了芯片制程的不断演进,但随着AI应用的计算需求上升,服务器成为主要的算力中心,且对高算力的追求使得其对先进制程呈现出越来越高的需求,AI芯片功耗较高,且需要更小的尺寸,因此AI芯片对先进制程的迫切需求将推动服务器需求成为先进制程最大的驱动力。Sumco估计,在AI服务器出货量强劲增长的推动下,服务器对先进制程晶圆的需求量最快将在2024年超过智能手机。 2025年是2nm量产交付元年,台积电已获得多家客户订单。台积电、三星、Intel均有望在2025年量产2nm制程,但目前Intel和三星主要用于生产自有产品,并未获得第三方客户的量产订单。Intel的18A将生产Panther Lake (PC CPU)和Clearwater Forest (服务器CPU),三星的SF2可能将获得自研处理器Exynos 2600的订单。台积电的2nm已获得多家客户订单,包括AMD的Venice(服务器CPU),苹果的A20/A20 Pro和M6系列,高通第三代8 Elite。此外,AWS、谷歌、微软未来的ASIC AI芯片在2nm节点上都大概率选择台积电。 先进制程面临物理约束瓶颈,先进封装成为提高芯片性能的重要解决方案。AI大发展使得算力需求爆发式增长,然而,随着半导体工艺尺寸进一步缩小,集成电路制造面临的挑战日益增大,摩尔定律日趋放缓,单位晶体管的成本不降反升,应用先进制程的芯片研发费用也大幅增长。先进封装通过异构集成,将多个芯粒(Chiplets)高密度连接在一起,整体性能提升不再依赖单一芯片支持,且大幅提升良率,降低成本,成为提供系统级性能提升的新路径。 CoWoS为HPC和AI计算领域广泛使用的先进封装技术。CoWoS是台积电推出的 2.5D封装技术,本质上是将多个芯片(如逻辑芯片+HBM)放置在一块硅中介层(interposer)上,再封装在基板上,2012年首先应用于Xilinx的FPGA上。此后,英伟达、AMD、谷歌等厂商的AI芯片均采用了CoWoS,例如A100、H100。如今CoWoS已成为HPC和AI计算领域广泛应用的2.5D封装技术,绝大多数使用HBM的高性能芯片,包括大部分创企的AI训练芯片都应用CoWoS技术。 AI持续高景气带动CoWoS需求不断提升。2023年一季度以来,AI服务器的需求不断增长,使台积电CoWoS封装产能紧缺。台积电一方面将制程分段委外,另一方面大幅扩产CoWoS产能。 HBM 3D堆叠提升内存性能,AI芯片广泛采用。随着数据的爆炸式增长,内存墙对于计算速度的影响愈发显现。为了减小内存墙的影响,提升内存带宽一直是存储芯片聚焦的关键问题。如同闪存从2D NAND向3D NAND发展一样,DRAM也正在从2D向3D技术发展,HBM为主要代表产品。与传统DRAM不同,HBM是3D结构,它使用TSV技术将数个DRAM裸片堆叠起来,形成立方体结构,与传统内存相比,HBM的存储密度更大、带宽更高,基本成为数据中心AI芯片的标配。 预计2028年全球先进封装市场规模增至786亿美元,2022-2028年CAGR达到10.0%。根据Yole数据,2022年全球封装市场中,先进封装占比已达到47%。预计到2028年,先进封装市场占比将增至58%,规模约为786亿美元,2022年-2028年CAGR约为10.0%,明显高于传统封装市场的2.1%和市场整体的6.2%。 晶圆代工龙头台积电打造先进封装工艺标杆,传统封测厂商亦纷纷加快转型步伐。台积电在先进封装上已取得了可观的收入体量,技术布局也进入关键节点,未来投入规模将持续加码。在OSAT厂商中,日月光VIPack先进封装平台包含六大核心技术,安靠推出FCMCM(倒装多晶片模组)、2.5D(TSV)等五大先进封装解决方案。国内长电先进聚焦bumping,Fan-out CSP晶圆级等先进封装,通富微电在2.5D/3D先进封装保持国内领先,深科技专注存储封测领域,并聚焦倒装工艺(Flip-chip)、POPt堆叠封装技术的研发。 内存带宽成为算力卡口,HBM需求紧迫迭代迅速 全球HBM(高带宽存储器)技术呈现“海外领跑、国内加速追赶”的双轨格局。海外市场由SK海力士、三星、美光三大巨头垄断95%以上份额:SK海力士凭借HBM3/3E量产优势稳居首位(市占率52.5%),其12层堆叠HBM4测试良率已突破70%,计划2025年量产;三星正加速优化HBM3E良率并推进HBM4研发,2024年通过AMD MI300系列验证后逐步放量;美光则聚焦HBM3e量产,但产能扩张略有滞后。国内HBM产业受地缘政策催化进入提速阶段。 从HBM的生产工艺来看,DRAM颗粒为定制的DRAM颗粒,工艺难点在于封测。TSV、大规模回流模塑底部填充(MR-MUF)、自对准、混合键合等工艺很大程度上影响HBM的性能和良率。 (1)TSV:不采用传统的布线方法来连接芯片与芯片,而是通过在芯片上钻孔并填充金属等导电材料以容纳电极来垂直连接芯片。制作带有TSV的晶圆后,通过封装在其顶部和底部形成微凸块(Micro Bumping),然后连接这些凸块。由于TSV允许凸块垂直连接,因此可以实现多芯片堆叠。最初,使用TSV接合的堆栈有4层,后来增加到8层。最近,一项技术使得堆叠12层成为可能,SK海力士于2023年4月开发了其12层HBM3。虽然TSV倒装芯片接合方法通常使用基于热压的非导电薄膜(TC-NCF),但SK海力士使用MR-MUF工艺,可以减少堆叠压力并实现自对准。这些特性使SK海力士能够开发出世界上第一个12层HBM3。 (2)MR-MUF:将半导体芯片堆叠起来,并将液体保护材料注入芯片之间的空间,然后硬化以保护芯片和周围电路的工艺。与在每个芯片堆叠后应用薄膜型材料相比,MR-MUF是一种更高效的工艺,并提供有效的散热。目前SK海力士主要使用MR-MUF工艺生产HBM2e/3/3e,使得其领先于三星电子和美光,后者主要采用TC-NCF工艺。MR-MUF工艺需要使用液态环氧树脂(EMC),目前全球仅日本namics独供。除EMC外,HBM封装还需要底部填充胶用于FC工艺,采用PSPI作为硅中介层中RDL的再钝化层,还需要IC载板、DAF、Solder ball等材料。 (3)自对准:在 MR-MUF工艺期间通过大规模回流将芯片重新定位到正确的位置。在此过程中,热量被施加到芯片上,导致相关凸块在正确的位置熔化并硬化。 (4)混合键合:C2W混合键合具有多种优势,①允许无焊料键合,减少键合层的厚度、缩短电气路径并降低电阻。因此,小芯片可以高速运行,就像单个芯片一样。②通过直接将铜与铜接合,可以显着减小凸块上的间距。目前,使用焊料时很难实现10 um或更小的凸块间距。然而,铜对铜直接键合可以将间距减小到小于1um,从而提高芯片设计的灵活性。③先进的散热功能。④上述的薄粘合层和细间距影响了封装的形状因数,可以大大减小封装尺寸。目前混合键合主要用于单层键合或两个芯片面对面堆叠,SK海力士2022年用混合键合完成了8层HBM2e的堆叠,正在开发用于更高密度、高堆叠HBM的混合键合。 需求紧俏,HBM持续挤压DRAM产能。从需求端看,云计算厂商将更多资本开支投入AI基础设施,2024年北美CSP的资本开支增速在55%,主要来自AI推动,传统服务器需求基本持平,25Q1同比增长64%,预计2025年CSP资本开支维持大幅增长。算力需求的快速增长,算力卡的数量和配置快速升级,最终带来的是算力芯片和HBM需求的快速增长。结合海外存储厂商和咨询机构的预测, 2024年HBM市场规模达到160亿美金,同比增长300%,预计2025年达到320亿美金,同比增长100%。从供给端看,HBM供应仍然紧缺,在传统DRAM库存波动的情况下,HBM由于AI服务器的强劲需求,挤占DRAM产能的现象还在持续。 HBM快速迭代,HBM4即将进入量产。结构上,2025年HBM3e将占据主导,根据SK海力士,2024年其HBM3e收入将占HBM收入一半以上,2025年12层HBM3e供给量将超过8层产品,12层HBM4计划于25H2发货。(1)HBM3e:三大原厂相继推出12Hi产品,这些12Hi的HBM预计用在英伟达的B300A(B200A Ultra)和B300上。(2)HBM4:三星、海力士计划24Q4开始HBM4的流片,预计2026年用在英伟达下一代的Rubin芯片上。 模型推理时代到来,ASIC需求爆发,看好ASIC服务器PCB厂商 推理时代即将到来,推理将成为AI算力需求的新动力。英伟达首席执行官黄仁勋在2025年GTC的主题演讲中提到,随着AI行业在模型训练上的需求放缓,叠加DeepSeek在模型推理上所作的创新,AI推理时代即将到来。相较于传统的生成式AI主要以语言大模型与聊天机器人的形式呈现、聚焦生成文本和图像内容等,AI Agent能理解任务、进行复杂推理、制定计划并自主执行多步骤操作,由于AI Agent解决复杂问题、分解任务每一步的逻辑思考过程都需要用到模型推理,因此推理将成为AI新阶段的核心动力。 低成本是AI推理爆发的必要条件,北美CSP厂商均加速研发ASIC的步伐。大模型推理时代相较于移动互联网时代,底层逻辑发生了巨大变化。推理系统的成本几乎和客户使用量成线性关系,因此边际成本很高,且成本绝大部分是推理的算力消耗。因此,在大模型时代,能将推理成本降到极致的厂商有望获得最终的胜利。目前北美四大CSP厂商,除了继续采用英伟达GPU做模型训练之外,均在加速开发自家的ASIC产品,一方面因英伟达的GPU价格昂贵,硬件投入成本过高,另一方面,自研ASIC可针对特定需求进行优化,也能针对特定的应用进行设计,因此对于能耗或电力管理的控制将更加精准,此外,从供应链安全角度,也可以避免算力资源都来自英伟达、AMD等GPU厂商的风险。在同等预算下,AWS的Trainium 2可以比英伟达的H100 GPU更快速完成推理任务,且性价比提高了30%~40%。2025年底计划推出的Trainium3,其计算性能更是提高了2倍,能效有望提高40%。谷歌的TPU v5芯片在Llama-3推理场景中,单位算力成本较H100降低了70%。根据IDC数据,微软Azure自研ASIC后,硬件采购成本占比从75%降至58%,摆脱长期被动的议价困境。 在Google Cloud Next 25大会上,谷歌又推出了第七代张量处理单元(TPU v7)Ironwood,它是谷歌迄今为止性能最高、可扩展性最强的定制ASIC芯片,也是首款专为推理而设计的加速器。Ironwood的每瓦性能是谷歌去年发布的第六代TPU Trillium的两倍,HBM容量及双向带宽均大幅提升。谷歌ASIC服务器计算板上有四个Ironwood TPU,这个与之前TPU v5计算板架构一样。 博通和Marvell均看好ASIC市场需求。博通和Marvell是ASIC定制领域的主要玩家,二者在AI定制芯片中占据了超70%的市场份额。博通定制的ASIC芯片广泛应用于数据中心、云计算、高性能计算(HPC)、5G无线基础设施等领域,根据博通最新财报,2025Q1公司AI芯片收入占比50%,同比增长77%,其中ASIC相关收入占比60%。博通认为XPU的需求会持续上涨,公司预计2025年下半年ASIC收入占比会持续上升,主要是因为推理模型需求增长使得AI芯片业务增速加快。Marvell的ASIC业务也成为公司强劲增长的核心动力之一。2024年12月初,Marvell与AWS达成了一项为期五年的战略合作协议,包括帮助亚马逊设计自有AI芯片。伴随AWS芯片的量产,Marvell在2025Q1实现营收18.95亿美元,同比增长63%,创历史新高。Marvell也预测,随着AI计算需求的增长,公司ASIC占比有望提升至25%,预计2028年数据中心ASIC市场规模将提升至429亿美元。 中国ASIC服务器市场增速超40%。中国ASIC服务器市场未来在中国市场,由于部分高端GPU产品受供应的限制,出现了算力缺口,另外中国头部的互联网企业为了降低成本以及更好地适配自身业务场景,也增大了自研ASIC芯片服务器的部署数量。IDC预测,2024年中国加速服务器市场规模将达到190亿美元,同比2023年增长87%。其中GPU服务器依然是主导地位,占据74%的市场份额。到2028年,中国加速计算服务器市场规模将超过550亿美元,其中ASIC加速服务器市场占比将接近40%。 随云厂商积极自研ASIC芯片,ASIC正成为AI服务器市场中与GPU并行的重要架构,进一步带动高阶PCB的需求。金像电为全球服务器PCB第一大厂,也是ASIC服务器放量时PCB企业中的最大受益者。金像电的产品已经切入北美四大CSP,涵盖UBB、OAM(加速器模组)所需要的HDI、厚铜板等。根据金像电25Q1法说会资料,公司25Q1单季度实现收入29.52亿元,创历史新高,其中服务器收入占比持续提升,到72%。在传统服务器市场温和复苏背景下,金像电业绩高增核心来自于云厂商ASIC服务器PCB订单,根据公司交流,2024年AI产品占比已达20%,未来将持续提升。 根据Semianalysis数据,亚马逊第二代推理芯片Trainium2的计算托盘中使用了2个Trainium2的芯片,即用到2个OAM,下面是一块UBB板。UBB为采用了M8规格覆铜板材料的28层高多层板,OAM为M6/M7的三阶HDI,往下一代Trainium3迭代的过程中,UBB中层数、OAM层数及阶数均会进一步提升。 展望2025年,除AWS外,谷歌、meta的新产品中,ASIC服务器UBB层数均将向30层板以上推进,制作难度加剧,也将进一步推动ASP的提升,ASIC服务器PCB将迎来量价齐升阶段,同时也将拉动上游高规格(M8等)覆铜板的需求。 证券研究报告名称:《2025年中期投资策略报告:端侧AI爆发可期,国产高端产能亟需突破》 对外发布时间:2025年6月17日 报告发布机构:中信建投证券股份有限公司 本报告分析师: 刘双锋 SAC 编号:S1440520070002 庞佳军 SAC 编号:S1440524110001 孙芳芳 SAC 编号:S1440520060001 章合坤 SAC 编号:S1440522050001 郭彦辉 SAC 编号:S1440520070009 王定润 SAC 编号:S1440524060005 何昱灵 SAC 编号:S1440524080001 AI兴起拉动小体积、高容值MLCC需求量快速增长 电容器行业发展过去主要依赖传统电子行业,MLCC主要受消费电子行业景气度的影响,周期性显著。近年来,新能源行业快速发展,国产厂商在下游新能源汽车、光伏、风电、储能等领域占据全球主要市场份额,从而带动上游被动元件的高速增长,AI化对应MLCC用量尤其是高规格MLCC需求量的快速增长。 GPU算力需求增加,MLCC成为保障高算力设备稳定运行的关键组件。当前,GPU和CPU的算力需求快速增长,为保障高算力设备的安全运行,MLCC在电路中承担了重要责任。服务器供应电流是48V或54V的直流电源,GPU、CPU的供应电流主要是12V或者更高,中间需要多路电源转变,电容发挥稳定电压作用。此外,随着晶体管数量的迅速增加,高算力设备的功耗也不断攀升。以英伟达为例,GB 200晶体管数量达到2000亿,工作功率大幅提升,GPU电路板上的电容数量因此激增,每块板可能使用超过1200个电容,这使得电容成为保障GPU正常工作的核心元件。 高容值、高耐温、小型化电容需求进一步提升。在高算力AI发展的需求下,功率大幅提升,但载板空间有限,为适应AI应用带来的电路改变,MLCC产品的变化主要体现在4方面:首先,高算力GPU/CPU需要的电容数量更多,在面积有限的板子上,电容要在更小体积中实现更大容值;其次,功耗增加导致电路系统温度升高,电容需具备更高的耐温性;三是,高功率条件下,大电流带来大纹波,对电容的低等效串联电阻(ESR)提出了更高要求;四是GPU/CPU的高频工作特性要求电容具有低等效串联电感(ESL)及高自谐振频率(SRF)。这些技术挑战反映出被动元器件需持续优化以适应高算力时代的需求,对上游厂商来说,这要求更细、耐高温的陶瓷粉料,以满足小体积大容量的高容值电阻的要求。 AI服务器拉动高容值MLCC需求量增加。与传统服务器相比,AI服务器MLCC用量显著增加,AI服务器MLCC用量大约是传统服务器的两倍,另外AI服务器算力需求增加,功率、电耗等要求随之提高,高容值、高耐温的MLCC产品单位用量增加。Trend Force集邦咨询表示,以英伟达GB200服务器为例,系统主板MLCC总用量高达三、四千颗,不仅较通用服务器增加一倍,1u以上用量占60%,耐高温用量高达85%,系统主板MLCC总价也增加一倍。Trend Force预测,2024年人工智能服务器全年出货量将达到167万台,同比增长41.5%。 根据Trend Force集邦咨询最新调查报告显示,2024年整体服务器市场产值估约达3060亿美元。其中,AI服务器成长动能优于一般型服务器,产值约为2050亿美元,AI服务器出货量同比增长46%。Trend Force预估2025年AI服务器出货量年成长率将达近28%,占整体服务器出货比重将进一步提升至15%以上。 AI PC需求持续增长,持续推动高端MLCC需求。一台传统笔记本电脑大约需要1000个MLCC,以英特尔为代表的CPU厂商正在力推具备AI算力的PC产品,新增了如神经处理单元(Neural Processing Unit,NPU)的功能模块,以提高整体运算性能,需要增加NPU供电线路,每台PC需要增加约90~100个MLCC。主要采用高通公版设计的Windows on Arm(WoA)笔记本电脑尽管采用低能耗见长的精简指令集(RISC)架构(ARM)设计架构,但其整体MLCC用量却高达1160至1200颗,这一数字与英特尔高端商务机型相当,其中高容值MLCC的用量占比高达八成。根据村田数据,AI PC单机MLCC用量提升40-60%,达到1400-1600颗。 预测2030年AI PC用MLCC约4000亿颗,年均增速超30%。据Canalys数据预测,2024全球AIPC出货量将达到4800万台,占个人PC总出货量的18%,预计到2025年,AIPC出货量将超过1亿台,占PC总出货量的40%,到2028年AIPC出货量将达到2.05亿台,渗透率达到约70%。2030年,预计全球AI PC用MLCC约4000亿颗,年均增速超30%。 AI手机需求高增,预计2030年用量超1.6万亿颗,年均复合增速超30%。据村田数据显示,4G高端手机MLCC用量为900-1100颗,而5G高端手机中用量将提升到990-1320颗,AI手机单机用量将提升20%,达到1300-1500颗。根据Canalys报告,预计2024年全球16%的智能手机出货为AI手机,到2028年,这一比例将激增至54%;IDC预测,到2025年,全球市场中三分之一的手机将成为新一代AI手机,中国市场到2028年AI手机占比可能超过80%。受消费者对AI助手和端侧处理等增强功能需求的推动,AI手机渗透率快速增长,Canalys预计这一转变将先出现在高端机型上,然后逐渐为中端智能手机所采用,手机用MLCC逐步转向高端。 AI发展,高端MLCC及原材料需求放量。随着AI终端渗透率的不断提升,高端MLCC用量快速增长,带来上游高端原材料需求爆发,以MLCC用镍粉为例,假设每亿颗MLCC用纳米镍粉0.22吨,预计新能源及AI领域用MLCC需求量从2023年的约3000亿颗增长至2030年的近3万亿颗,高端MLCC用纳米镍粉需求量从不足千吨增长至超6千吨。 电感:芯片电感在AI算力时代的崛起与应用 三大被动元件之一,电子世界中的“能量缓冲器”。电感是三大被动元件之一,又称线圈、扼流器、电抗器等,能把电能转化为磁能而存储起来,结构类似于变压器,当电流通过电感器的线圈时,会在其周围形成磁场,这个磁场又会反过来影响线圈中的电流,形成电感效应。电感器正是利用这一原理,实现对电路中电流的调节和控制。其特性是“通直流、阻交流”,主要作用包括储能、筛选信号、过滤噪声、稳定电流及抑制电磁波干扰(EMI) 等,还可与电容一起组成LC滤波电路。电感器的应用领域广泛,涵盖电源管理、信号处理、通信、汽车电子、消费电子等多个领域。 算力时代,AI芯片电感大显身手 随着高性能计算(HPC)系统,特别是AI服务器的市场规模不断扩大,其核心处理器,包括CPU、GPU、NPU、ASIC、FPGA等,以及内存、网络通信等芯片元器件的性能和功耗水平都在提升。AI服务器中,CPU、GPU、内存等及各种接口都需要供电,因此电源管理系统就显得非常重要,功率管理水平的提升显得更加重要。 小型化、大功率、高频率场景日益丰富,芯片电感大展身手。芯片电感是一种特殊形式的一体成型电感,其尺寸微小,但性能优越,广泛应用于各类集成电路中,起到为GPU、CPU、ASIC、FPGA等芯片前端供电的作用。AI快速发展导致对于算力的要求爆发增长,传统的铁氧体电感体积和饱和特性满足不了高性能GPU的要求,金属软磁粉或羰基铁粉制作的芯片电感具有体积小、效率高、散热好等优点,可以更好适应芯片低电压、大电流、大功率场景,耐受大电流冲击,开关频率可达500kHz~10MHz,更加适用于AI服务器、AI PC 、AI 手机、智能驾驶、AI机器人、DDR等大算力应用场景。 AI发展拉动GPU销量激增和迭代加速,引发对芯片电源模块的批量供应和性能升级的双重需求。根据华为《智能世界2030》报告预测,2030年,人类将迎来YB 数据时代,2020年通用算力将增长10倍到3.3ZFLOPS,AI算力将增长500倍超过100ZFLOPS。算力需求的爆发式增长,直接引致AI服务器的出货量和占比的加速提升。根据Trend Force公布的《AI服务器产业分析报告》,预估2024年AI服务器出货量可上升至167万台,年增长率达41.50%,预估2024年AI服务器产值将达1870亿美元,在服务器中的整体占比高达65%。GPU作为AI服务器的核心算力芯片,占据目前AI芯片市场80%以上的市场份额,AI产业的快速发展直接拉动GPU的销量激增和迭代加速,继而引发了对芯片电源模块的批量供应和性能升级的双重需求。 算力提升,大功率场景催生芯片电感需求。以英伟达的GPU为例,其2022年推出的型号为H100SXM的GPU的算力指标TF32和FP16分别为0.49PFLOPS和0.99PFLOPS,而其拟推出的B200 GPU的TF32和FP16分别提高至1.12PFLOPS和2.25PFLOPS,其功耗水平亦由700W增加至1000W,虽然单位算力的能耗有所降低,但单体GPU的能耗水平仍增长明显,对芯片电源模块的供电能力和质量要求随之提升,进而对芯片电源的核心元件芯片电感也提出了更高的用量和性能需求。 算力下沉,AI PC和AI手机是芯片电感最具潜力的需求增长市场。PC及手机也用相当数量的一体成型电感,传统PC电感数量有10-30颗,村田称智能手机大概采用50颗左右一体成型电感,AI PC和AI手机虽然算力需求相较于云端AI较小,目前尚未实现金属软磁芯片电感的替代。随着未来算力下沉,AI PC和AI手机CPU/GPU等核心芯片算力和功率都会有进一步的提升,对更高效率、小体积、高可靠性和大功率的芯片电感需求也将逐步体现并替代传统电感。并且,传统铁氧体难以7*24小时稳定运行,电流波动大,影响数据传输,芯片电感能节省PCB板面积,有利于轻薄设计,对传统铁氧体电感替代是趋势。在总量上,AI手机和AI PC的电感需求总量要高于数据中心GPU市场,是未来芯片电感需求最具增长潜力的市场。 据Canalys数据预测,2024全球AI PC出货量将达到4800万台,占个人PC总出货量的18%,预计到2025年,AIPC出货量将超过1亿台,占PC总出货量的40%,到2028年AIPC出货量将达到2.05亿台,渗透率达到约70%,2024-2028年期间的复合年增长率将超40%。根据Canalys报告,预计2024年全球16%的智能手机出货为AI手机,到2028年,这一比例将激增至54%。 芯片电感壁垒高,认证周期长,竞争格局好。芯片电感最上游是粉体制造,一般由超细雾化合金粉、羰基铁粉、非晶粉等单独或混合使用,超细雾化合金粉、羰基铁粉制备具有较高壁垒,粒径大小、表面性能、一致性等要求较高。另外传统绕线电感在磁粉芯外绕铜线而成,芯片电感将采取铜铁共烧工艺提高机械强度。下游客户认证周期较强,具有较高的准入壁垒。 电阻:市场空间相对较小,市场集中度高 随着AI终端和AI服务器的快速发展,对电阻的需求和性能要求也在显著提高。AI终端的功率和工作电流不断提升,通常需要使用低阻值、高功率、高精度的电流感测电阻,以满足更精细化的电流检测需求,并保证检测的准确性和可靠性。如AI终端要求电阻具备超低容差、超低温漂、更大工作温度范围等。 证券研究报告名称:《AI使高端被动元件需求激增,相关金属新材料迎发展机遇》 对外发布时间:2025年2月18日 报告发布机构:中信建投证券股份有限公司 本报告分析师: 王介超 SAC 编号:S1440521110005 覃静 SAC 编号:S1440524080002 郭衍哲 SAC 编号:S1440524010001 邵三才 SAC 编号:S1440524070004