AMD的AI开发者日:算力竞争进入本地智能体时代

智车科技

1周前

AMD提出“智能体主机”,是在重新定义AIPC的任务,一台本地设备,能不能持续运行一个或多个智能体,能不能承载复杂模型,能不能成为个人和企业的本地AI入口。...本地AI过去最大的问题,是“能跑”但不好用。

芝能智芯出品

AMD AI DevDay 2026在上海举办,吸引了超过两千名开发者到场,现场去看人山人海。

AMD上海研发中心迎来成立二十周年,AI算力竞争正在从“谁有更多GPU”,转向“谁能让开发者更低成本、更本地化、更连续地跑智能体”。

这次AMD AI开发者大会首次来到中国,AI开发正在进入一个新阶段,过去的核心是训练大模型,需要多少GPU、多少集群、多少云端算力。

现在问题变了,智能体要持续运行,要调用工具,要处理企业数据,要在本地保留隐私,还要让开发者反复测试、调参、部署。

这个变化把算力需求从一个大中心,拆成了很多节点。

云端仍然重要,但端侧、本地工作站、开发者机器和企业内部部署,开始重新变得重要。

AMD的机会也在这里,想把CPU、GPU、NPU、统一内存、ROCm软件栈和开发者工具串起来,变成一条从本地开发到数据中心部署的路径。

Part 1

AI需求变了:从大模型调用,转向本地智能体持续运行

这次大会最核心的背景,是AI使用规模和调用方式正在变化。

Lisa Su在演讲中提到,今天全球已经有超过10亿AI活跃用户,未来几年预计会达到超过50亿活跃用户。AI不会只是少数企业和开发者的工具,而会变成接近全民级别的计算需求,AI的形态也在变化。

以前的大模型应用,更多是“问一句,答一句”,现在智能体不是一次调用,而是一串动作。

一个coding agent会生成代码、检查代码、修改代码、运行测试,再重新生成。

一个企业智能体会读取数据、调用API、生成结论、触发流程,并且不断反馈。

这就带来一个问题:token需求会指数级上升,OpenCode Router从2025年2月的2万亿tokens,增长到2026年2月的42万亿tokens,中国每天使用140万亿tokens,两年增长超过100倍,AI成本正在从“模型训练成本”扩展到“日常推理成本”。

企业不是只花一次钱训练模型,而是在每一次调用、每一次智能体循环、每一次工具链协作里持续消耗算力。

企业做AI不能停留在实验室,必须改变季度财报里的数字,如果AI不能影响收入、利润、合规、动态定价、供应链、上市时间和组织效率,它就只是一个AI实验室项目。

对开发者也是一样。未来的竞争不是“我接了哪个API”,而是“我能不能用更低的token成本,把智能体真正嵌进业务流程”。

这也是为什么本地AI重新受到重视,如果所有开发、测试和内部数据处理都依赖云端API,成本、隐私、延迟和可控性都会成为瓶颈。

如果一部分推理可以在本地运行,开发者就能获得三个优势。

◎ 第一,成本可控。本地机器买下来以后,不再按token和会话持续计费。

◎ 第二,数据更安全。企业知识、会议记录、研发资料和客户数据,不需要每次都传到云端。

◎ 第三,迭代更快。没有网络、配额和外部服务限制,开发者可以更高频地调试智能体。

AMD提出“智能体主机”,是在重新定义AI PC的任务,一台本地设备,能不能持续运行一个或多个智能体,能不能承载复杂模型,能不能成为个人和企业的本地AI入口。

Part 2

AMD的落点:用Ryzen AI Max+把本地智能体做成新硬件类别

AMD这次最清晰的产品落点,是AMD锐龙AI Max+系列,随着AI智能体兴起,AMD率先提出“智能体主机”新概念,主机需要CPU+GPU双引擎算力,也需要高带宽、大容量统一内存。

智能体不是只跑一个模型,要同时处理推理、工具调用、数据检索、多模态输入、上下文管理和本地应用交互。

基于AMD锐龙AI Max+系列处理器的智能体主机,已经覆盖一体机、笔记本、Mini AI工作站等形态。

惠普、华硕、联想、宏碁以及本地新兴品牌,已经推出超过35款相关产品设计。

这些系统至高支持96GB GPU专属显存,并且可以原生支持高达200B参数的模型,像Qwen 3.5 122B这样的大模型,也能在本地高性能运行。

本地AI过去最大的问题,是“能跑”但不好用。小模型能跑,但能力不够。大模型能力够,但显存和内存吃不下。

一旦模型要拆分、卸载、频繁访问外部内存,体验就会明显下降。

AMD强调统一内存和大显存,是在解决本地大模型运行的门槛,让开发者在开发、测试、微调、智能体原型验证这些环节,不必一开始就进入昂贵的云端生产环境。

这对中国开发者尤其重要,中国AI生态有大量开源模型、应用开发者和本地部署需求。如果开发者能在自己的笔记本或工作站上跑较大模型,围绕Agent、RAG、多模态、代码生成和企业私有数据做原型验证,生态速度会快很多。

这也是AMD想抓住的开发者入口。

过去GPU竞争更像数据中心竞赛。谁能拿到大客户、谁能交付大集群、谁能支持训练,是核心问题。

但智能体时代,开发者入口会前移。一个开发者可能先在本地机器上做原型,用Radeon AI PRO或Threadripper PRO做测试和小规模部署,最后再迁移到数据中心GPU。

整个路径使用同一套软件栈,迁移成本就会低很多,就是这个“从本地到数据中心”的连续性。

Part 3

ROCm要打通从笔记本到数据中心的开发路径

AMD过去在AI领域最大的短板是软件生态弱,这次大会反复强调ROCm,并不是偶然。

AMD ROCm开源软件平台已经在产品和系统层面扩展,新增支持新一代AMD锐龙AI 400系列处理器,并可在ComfyUI中下载。

从ROCm 7.2版本开始,扩展对Windows和Linux的兼容性,新的PyTorch版本也可以通过AMD软件获取,以支持Windows上的高效部署。

◎ 第一,支持Windows,意味着更多PC端和创作者环境可以进入。很多本地AI应用不是只跑在Linux服务器上,而是跑在开发者的个人电脑、工作站和创作工具链里。

◎ 第二,支持ComfyUI,说明AMD要进入图像生成和多模态开发者的日常工作流。

◎ 第三,PyTorch和ROCm打通,是为了减少“能不能跑起来”的摩擦。开发者真正怕的不是理论性能不够,而是安装、驱动、依赖、框架适配和调试成本太高。

ROCm是支持所有AMD GPU的统一软件平台,可以从笔记本、工作站到数据中心互联互通。

通过HIPCC编译器、ROCm库、PyTorch等AI框架,以及OpenClaw等智能体框架,AMD希望实现“一次编写,全路径运行”。

除了ROCm,AMD还把本地开发和专业工作站路径接起来。

AMD Radeon AI PRO R9700基于AMD RDNA 4架构,配备32GB显存,面向本地AI推理、开发和内存密集型工作负载。

AMD锐龙Threadripper PRO 9000系列处理器支持最多128条PCIe 5.0通道,用于多GPU和NVMe存储配置,适合本地AI微调、推理和应用开发。

◎ 第一层,是Ryzen AI Max+,解决开发者本地智能体和大模型原型。

◎ 第二层,是Radeon AI PRO和Threadripper PRO,解决工作站级测试、微调和开发。

◎ 第三层,是数据中心GPU和ROCm统一软件栈,解决更大规模的部署。

如果这三层能打通,AMD就不只是卖芯片,而是在卖一条开发路径。

AMD也在中国通过Radeon GPU免费开发者云、基础模型公司协作、阿里云模型社区和创空间等方式推进生态,AI硬件竞争最后一定会落到开发者,让开发者更快跑起来有机会把硬件优势转化成生态优势。

小结

智能体时代,算力不只在云端,也要落到开发者手边,本地AI主机、工作站和统一软件栈,会成为新的基础设施层。

原文标题 : AMD的AI开发者日:算力竞争进入本地智能体时代

AMD提出“智能体主机”,是在重新定义AIPC的任务,一台本地设备,能不能持续运行一个或多个智能体,能不能承载复杂模型,能不能成为个人和企业的本地AI入口。...本地AI过去最大的问题,是“能跑”但不好用。

芝能智芯出品

AMD AI DevDay 2026在上海举办,吸引了超过两千名开发者到场,现场去看人山人海。

AMD上海研发中心迎来成立二十周年,AI算力竞争正在从“谁有更多GPU”,转向“谁能让开发者更低成本、更本地化、更连续地跑智能体”。

这次AMD AI开发者大会首次来到中国,AI开发正在进入一个新阶段,过去的核心是训练大模型,需要多少GPU、多少集群、多少云端算力。

现在问题变了,智能体要持续运行,要调用工具,要处理企业数据,要在本地保留隐私,还要让开发者反复测试、调参、部署。

这个变化把算力需求从一个大中心,拆成了很多节点。

云端仍然重要,但端侧、本地工作站、开发者机器和企业内部部署,开始重新变得重要。

AMD的机会也在这里,想把CPU、GPU、NPU、统一内存、ROCm软件栈和开发者工具串起来,变成一条从本地开发到数据中心部署的路径。

Part 1

AI需求变了:从大模型调用,转向本地智能体持续运行

这次大会最核心的背景,是AI使用规模和调用方式正在变化。

Lisa Su在演讲中提到,今天全球已经有超过10亿AI活跃用户,未来几年预计会达到超过50亿活跃用户。AI不会只是少数企业和开发者的工具,而会变成接近全民级别的计算需求,AI的形态也在变化。

以前的大模型应用,更多是“问一句,答一句”,现在智能体不是一次调用,而是一串动作。

一个coding agent会生成代码、检查代码、修改代码、运行测试,再重新生成。

一个企业智能体会读取数据、调用API、生成结论、触发流程,并且不断反馈。

这就带来一个问题:token需求会指数级上升,OpenCode Router从2025年2月的2万亿tokens,增长到2026年2月的42万亿tokens,中国每天使用140万亿tokens,两年增长超过100倍,AI成本正在从“模型训练成本”扩展到“日常推理成本”。

企业不是只花一次钱训练模型,而是在每一次调用、每一次智能体循环、每一次工具链协作里持续消耗算力。

企业做AI不能停留在实验室,必须改变季度财报里的数字,如果AI不能影响收入、利润、合规、动态定价、供应链、上市时间和组织效率,它就只是一个AI实验室项目。

对开发者也是一样。未来的竞争不是“我接了哪个API”,而是“我能不能用更低的token成本,把智能体真正嵌进业务流程”。

这也是为什么本地AI重新受到重视,如果所有开发、测试和内部数据处理都依赖云端API,成本、隐私、延迟和可控性都会成为瓶颈。

如果一部分推理可以在本地运行,开发者就能获得三个优势。

◎ 第一,成本可控。本地机器买下来以后,不再按token和会话持续计费。

◎ 第二,数据更安全。企业知识、会议记录、研发资料和客户数据,不需要每次都传到云端。

◎ 第三,迭代更快。没有网络、配额和外部服务限制,开发者可以更高频地调试智能体。

AMD提出“智能体主机”,是在重新定义AI PC的任务,一台本地设备,能不能持续运行一个或多个智能体,能不能承载复杂模型,能不能成为个人和企业的本地AI入口。

Part 2

AMD的落点:用Ryzen AI Max+把本地智能体做成新硬件类别

AMD这次最清晰的产品落点,是AMD锐龙AI Max+系列,随着AI智能体兴起,AMD率先提出“智能体主机”新概念,主机需要CPU+GPU双引擎算力,也需要高带宽、大容量统一内存。

智能体不是只跑一个模型,要同时处理推理、工具调用、数据检索、多模态输入、上下文管理和本地应用交互。

基于AMD锐龙AI Max+系列处理器的智能体主机,已经覆盖一体机、笔记本、Mini AI工作站等形态。

惠普、华硕、联想、宏碁以及本地新兴品牌,已经推出超过35款相关产品设计。

这些系统至高支持96GB GPU专属显存,并且可以原生支持高达200B参数的模型,像Qwen 3.5 122B这样的大模型,也能在本地高性能运行。

本地AI过去最大的问题,是“能跑”但不好用。小模型能跑,但能力不够。大模型能力够,但显存和内存吃不下。

一旦模型要拆分、卸载、频繁访问外部内存,体验就会明显下降。

AMD强调统一内存和大显存,是在解决本地大模型运行的门槛,让开发者在开发、测试、微调、智能体原型验证这些环节,不必一开始就进入昂贵的云端生产环境。

这对中国开发者尤其重要,中国AI生态有大量开源模型、应用开发者和本地部署需求。如果开发者能在自己的笔记本或工作站上跑较大模型,围绕Agent、RAG、多模态、代码生成和企业私有数据做原型验证,生态速度会快很多。

这也是AMD想抓住的开发者入口。

过去GPU竞争更像数据中心竞赛。谁能拿到大客户、谁能交付大集群、谁能支持训练,是核心问题。

但智能体时代,开发者入口会前移。一个开发者可能先在本地机器上做原型,用Radeon AI PRO或Threadripper PRO做测试和小规模部署,最后再迁移到数据中心GPU。

整个路径使用同一套软件栈,迁移成本就会低很多,就是这个“从本地到数据中心”的连续性。

Part 3

ROCm要打通从笔记本到数据中心的开发路径

AMD过去在AI领域最大的短板是软件生态弱,这次大会反复强调ROCm,并不是偶然。

AMD ROCm开源软件平台已经在产品和系统层面扩展,新增支持新一代AMD锐龙AI 400系列处理器,并可在ComfyUI中下载。

从ROCm 7.2版本开始,扩展对Windows和Linux的兼容性,新的PyTorch版本也可以通过AMD软件获取,以支持Windows上的高效部署。

◎ 第一,支持Windows,意味着更多PC端和创作者环境可以进入。很多本地AI应用不是只跑在Linux服务器上,而是跑在开发者的个人电脑、工作站和创作工具链里。

◎ 第二,支持ComfyUI,说明AMD要进入图像生成和多模态开发者的日常工作流。

◎ 第三,PyTorch和ROCm打通,是为了减少“能不能跑起来”的摩擦。开发者真正怕的不是理论性能不够,而是安装、驱动、依赖、框架适配和调试成本太高。

ROCm是支持所有AMD GPU的统一软件平台,可以从笔记本、工作站到数据中心互联互通。

通过HIPCC编译器、ROCm库、PyTorch等AI框架,以及OpenClaw等智能体框架,AMD希望实现“一次编写,全路径运行”。

除了ROCm,AMD还把本地开发和专业工作站路径接起来。

AMD Radeon AI PRO R9700基于AMD RDNA 4架构,配备32GB显存,面向本地AI推理、开发和内存密集型工作负载。

AMD锐龙Threadripper PRO 9000系列处理器支持最多128条PCIe 5.0通道,用于多GPU和NVMe存储配置,适合本地AI微调、推理和应用开发。

◎ 第一层,是Ryzen AI Max+,解决开发者本地智能体和大模型原型。

◎ 第二层,是Radeon AI PRO和Threadripper PRO,解决工作站级测试、微调和开发。

◎ 第三层,是数据中心GPU和ROCm统一软件栈,解决更大规模的部署。

如果这三层能打通,AMD就不只是卖芯片,而是在卖一条开发路径。

AMD也在中国通过Radeon GPU免费开发者云、基础模型公司协作、阿里云模型社区和创空间等方式推进生态,AI硬件竞争最后一定会落到开发者,让开发者更快跑起来有机会把硬件优势转化成生态优势。

小结

智能体时代,算力不只在云端,也要落到开发者手边,本地AI主机、工作站和统一软件栈,会成为新的基础设施层。

原文标题 : AMD的AI开发者日:算力竞争进入本地智能体时代

展开
打开“财经头条”阅读更多精彩资讯
APP内打开