千呼万唤始出来,OpenAI推出了自己的agent,并集成到了ChatGPT中。
OpenAI 把“思考‑执行‑再思考”的循环跑通,并在 40 多个真实工作基准上显著超越人类或旧模型,这意味着生产力场景第一次有了可量化的替代临界点。
ChatGPT Agent 不再只是“问答助手”,而是一枚可“思考‑行动” 的通用智能体。它拥有自己的虚拟电脑,可在浏览器、终端、API 之间自主切换,完成从网页交互、文件下载与处理,到生成可编辑 PPT / 表格的端到端工作流程。现已向 Pro/Plus/Team 计划用户推出,界面中新增「Agent 模式」切换。企业版与教育版将在夏末开放;Pro 用户每月约 400 次调用额度,Plus/Team 每月 40 次。
性能层面,Humanity’s Last Exam(综合专家级考试)Pass@1 = 41.6%,几乎是 o3 / o4‑mini 的两倍;并行 8 路后可提升至 44.4%;FrontierMath 难题正确率 27.4%;DSBench 数据科学任务、人类平均水平被反超;SpreadsheetBench 电子表格编辑得分 45.5%,大幅领先 Excel Copilot 20%。
Agent 会在关键操作前征求授权,可随时暂停 / 介入;任务完成后支持通知推送。OpenAI 强调“授予最低必要权限”的安全原则,以防钓鱼邮件等外部诱导。传统 RPA 偏“录屏+脚本”,而 Agent 天然具备推理与上下文记忆,可动态调整流程。
与旧版工具的差异一览:在功能、策略、输出与安全控制都有了本质提升
ChatGPT Agent的技术堆栈大致是怎么样的?
详细看了一下官方与第三方评测,五层核心 + 多工具 + 沙盒 VM构成了 ChatGPT Agent 的技术堆栈;模型‑安全双栈并重:RL‑driven 任务成功率与重兵布防的 prompt‑injection 处理并行;相比传统自动化脚本,具备自我规划与动态重试能力,同时保持用户可见、可介入的执行透明度。
顶层架构概览:五层 Agent Core
核心思想把「计划‑控制‑执行‑记忆‑交互」解耦,实现松耦合、可升级的 Agent 框架。
工具栈:集成通用的各种任务工具
所有工具运行于 隔离虚拟机:远程 macOS 实例(OpenAI 内部 KVM 池),带软限时与资源沙盒,且用户可一键清除 Cookie 与 VM 状态。
使用的基座模型:o3 系列进阶版(RL‑finetune + 128 k 上下文),在 Computer‑Using Agent 数据集上继续强化学习。
多阶段 RL使用较多:
Imitation:复现人类演示(Operator 日志、深度研究论文写作)。
Self‑Play / RLAIF:模型自行生成任务‑反馈对,低成本扩充轨迹。
Reward mixing:综合正确率、用时、用户确认次数等多维信号。
与竞对也就是与Manus / Google Gemini / Anthropic Claude Agent对比如何?
ChatGPT Agent通过虚拟机+多工具组合实现最高的通用性与可监控性,适合需要可视化、可下载产出的知识工作流程。
Manus主打“端到端自治”,在 GAIA 上跑出高分,但公开安全细节有限,当前以等待列表为主,更多偏早期尝鲜。
Google将 Agent 能力嵌入 Gemini 生态,长板是跨设备(语音/视频)与 Google 服务整合,短板是尚未公开完整沙盒细节与计价。
Anthropic定位“开发者友好工具包”,把 Agent 拆成可组合模式;安全哲学是先简再进,强调透明度而非全自动。
定位与执行方式
ChatGPT Agent:通过云端虚拟电脑+多工具栈,采用「Planner‑Controller」分层架构,给用户完整的“思考‑行动‑回溯”闭环。
Manus AI:主打“全自动”一键执行,细节相对封闭,暂无公开沙盒。
Google Gemini Agents:以「积木式」工具盒为核心,计划整合进 Gemini Live / Mariner,可并行 10 个以上任务;Project Astra 展示了语音、视频与屏幕共享的即‑时协作。
Anthropic Claude Agents:强调“可组合”最佳实践,Orchestrator‑Workers 等模板让开发者自由拼装;工具需开发者自行在 API 内声明。
长程规划与世界模型
ChatGPT 借助分层 Planner 在复杂项目上表现稳定。
Gemini 宣称具备“World Model”推演能力,可对多任务并行调度。
Claude 提供最简 Orchestrator 骨架,方便插入自家任务规划逻辑。
Manus 的内部机制相对模糊,更多依赖其端到端流程。
多模态覆盖
ChatGPT 目前支持文本、网页截图与代码运行。
Manus 官方展示了文本+图像+代码三模态。
Gemini 借 Astra 扩展到语音、视频和屏幕共享,目标打造“全感官”助手。
Claude 仍以文本为主,单独推出 Claude Code 专注编程场景。
安全与治理
ChatGPT 采用“三层沙盒+用户显式授权”模式,风险隔离最彻底。
Google 在自家安全栈和政策框架上拥有优势,尤其合规与数据防护。
Claude 把“可审计”和“可插安全钩子”写进 MCP 协议,方便企业自定审计流程。
Manus 以“透明可解释”为卖点,但公开资料最少,尚待验证。
ChatGPT 在 HLE、SpreadsheetBench 等公开基准上公布了具体分数,透明度较高。Claude 在 SWE‑bench Verified 上解决真实 GitHub issue,突出工程能力。Manus 自称 GAIA 三档 SOTA,但缺少第三方复测。Gemini 侧重场景演示(Astra、Mariner),官方基准数据较少。
商业化策略
ChatGPT 已形成清晰订阅分层(Plus/Pro)。
Gemini Live/Astra 预期走高阶订阅,Mariner 面向企业。
Claude 维持 API 计费+企业自建双线;“Claude‑in‑Slack”等插件加速分销。
Manus 仍处邀请制与免费试用阶段,收费方案未定。
综合来看
ChatGPT Agent 在可用性(工具生态)、安全隔离与透明基准方面领先;更像“一体化办公 OS”。
Google Gemini 把多模态与并行任务做到最极致,适合需要视频/语音实时交互、重协作的场景。
Anthropic Claude 以“可组合、安全审计”吸引对治理要求高的企业;工程代码场景表现突出。
Manus AI 凭“端到端全自动”获得关注,但生态、合规与公开基准仍待时间检验。
一次任务的执行链示例
比如我给了他一个高难度任务,参考ARKK对特斯拉的估值模型,自己做一个特斯拉的深度估值模型并导出成EXCEL,这个时候agent就开始规划-拆分任务等一系列操作,最终输出结果。
“降维打击”——为何 ChatGPT Agent 对传统 RPA/脚本型 Agent 形成维度压制?
学习型控制:Planner‑Controller 在推理时决定下一个工具,而非固定流程脚本。
统一多模态:视觉、文本、代码 trace 都回到同一 LLM token 流,闭环学习。
安全‑优先:沙盒 + 逐步确认的“最小可行动作”原则,比 Auto‑GPT 之类的无界 Shell 更易落地生产。
RPA:流程录制 + 规则 = 函数式;任何 UI 细节变动都需重录,属于 高初建‑高维护 曲线。
ChatGPT Agent:自然语言 Prompt + LLM 推理 + 工具链 = 推理式;模型可在运行时重新规划,曲线趋近 低初建‑低维护,对非工程团队友好。
能力覆盖面扩张:从“搬砖”到“决策+创作”的转变,更能创新
Agent 吞噬了 RPA 原来 70‑80% 的“简单流程”护城河,同时向上啃食 Excel 宏、BI、低代码平台的价值版图。
经济模型重构:订阅‑调用 vs 流程‑座席授权
计费模式
传统 RPA:按「并发机器人数量 + 开发 Studio 授权」收费,一旦上线即锁定年度合同成本;ChatGPT Agent:目前采用 Plus(40 次/月)与 Pro(400 次/月)订阅配额,后续可切换为按调用量计费,费用弹性更大。
单位产出效率
传统 RPA:开发一条自动化流程通常需要专业工程师 2‑4 周。ChatGPT Agent:业务人员自行操作,约 20 分钟即可做出可用 MVP;例如用 20 分钟生成完整的提前退休方案。
ROI 拐点
传统 RPA:先签年度合同、安排培训,再逐步验证投资回报,前期沉没成本高;ChatGPT Agent:月度订阅,随时启停,试错成本低,投入‑产出转正速度更快。
更细颗粒的“使用计费”把 TAM² 从数十亿美元 RPA 扩大到百亿美元级“AI 生产力”市场(2024‑34 CAGR ≈ 25%)
极度稳定的核心交易系统(银行主机、SAP Green Screen):UI 变化极少,RPA 成本已摊平,Agent 收益不足以覆盖迁移风险。
高并发、毫秒级操作(实时订单撮合):LLM 推理延迟仍以秒计,RPA 脚本胜出。
完全离线、无网络隔离区:ChatGPT Agent 需云沙盒;本地 LLM 方案仍在早期。
ChatGPT Agent 把“流程自动化”从 规则录制晋级到语义驱动、动态规划,在可用性、适应性、经济模式上实现全面跨维升级。传统 RPA 仍有局部护城河,但若不快速拥抱 LLM‑Agent,将在主流自动化场景被逐步替代。
通用套壳,底层基于大模型,对于底层模型理解完全不及大模型公司,像Manus那种想做通用的一定会和大模型公司撞车,最终会被大模型公司吞噬?
①纯“通用套壳”Agent ≠ 护城河:只把别家大模型包一层工具调度,很难与直接拥有模型、渠道和算力的平台长期竞争。
②垂直专精 + 数据 + 合规,才是创业公司可以与大厂错位生存、甚至反超的核心。
③Manus 式“通用 Agent”会被吞并还是活下来?
取决于能否快速下沉到(1)独占数据回路、(2)差异化工具链、(3)渠道壁垒三者中的至少一个,否则大概率在下一轮模型升级里被边缘化。
价值链视角:哪一层最容易被“降维”?
大模型公司同时牢牢占据 模型服务层 + 通用 Agent 框架(OpenAI Agent、Gemini Live、Claude Workflows)。
Manus之类创业公司若只做任务编排层且仍调用第三方基础模型,就处在“双面被夹”位置:上游价格受制,功能随时被下游应用直接调用官方 Agent 替代。TechCrunch 也指出 Manus 的演示“并未如宣传般顺畅”且收费 39–199 美元/席位,性价比受质疑。
护城河来源 | 典型做法 |
专有数据闭环 | 嵌入业务系统,持续回收标签或对话 |
合规/监管门槛 | 行业安全测试、专利、流程认证 |
深度工作流整合 | 对接专业软件(eDiscovery、EHR、PLM),改变 KPI |
渠道/信任 | 咨询、BPO、ISV 联合销售 |
Vertical AI 通过深耕行业规则和专属数据在精度上“吊打”通用模型,而通用模型想跨过合规壁垒要付出的成本呈指数增长 Turian。
通用 Agent 初创还能怎么活?
战略选项 | 可行性 |
快速下沉垂直场景 | 把框架变“行业骨架”,开放插件给专业 ISV |
自研或深度定制模型 | 训练小型专用 LLM(2–7 B)+ RAG,降低 API 成本 |
成为多模型调度层 | 做“Any‑LLM Router + 最优成本/合规策略” |
社区网络效应 | 开源 agentic DSL / UI,让开发者贡献工具 |
给创业者 / 投资人的提示有哪些?
先找数据源,再写代码:没有可迭代的私有数据,Agent 只能停留在“把别人 API 拧在一起”的层级。
合规当作产品功能:越在高监管行业,越能以“合规即护城河”锁用户。
衡量指标:不仅是 MAU,而是单位任务盈利与数据闭环增益速率(数据→模型→更好任务→更多数据)。
通用 Agent 市场正在“高热+快速淘汰”——拿到种子后 6–9 个月内要验证行业 PMF,否则很容易被同类或大厂功能更新抹平差距。
“模型层壁垒+通用框架” 已由巨头占位。Agentic AI 初创若只做“通用套壳”,就是跟 OpenAI、Google、Anthropic 在同一维度硬碰。唯有下沉行业、掌控专属数据与合规场景,才能拉开“维度差”,避免被下一代大模型一键替换。
全文完。
千呼万唤始出来,OpenAI推出了自己的agent,并集成到了ChatGPT中。
OpenAI 把“思考‑执行‑再思考”的循环跑通,并在 40 多个真实工作基准上显著超越人类或旧模型,这意味着生产力场景第一次有了可量化的替代临界点。
ChatGPT Agent 不再只是“问答助手”,而是一枚可“思考‑行动” 的通用智能体。它拥有自己的虚拟电脑,可在浏览器、终端、API 之间自主切换,完成从网页交互、文件下载与处理,到生成可编辑 PPT / 表格的端到端工作流程。现已向 Pro/Plus/Team 计划用户推出,界面中新增「Agent 模式」切换。企业版与教育版将在夏末开放;Pro 用户每月约 400 次调用额度,Plus/Team 每月 40 次。
性能层面,Humanity’s Last Exam(综合专家级考试)Pass@1 = 41.6%,几乎是 o3 / o4‑mini 的两倍;并行 8 路后可提升至 44.4%;FrontierMath 难题正确率 27.4%;DSBench 数据科学任务、人类平均水平被反超;SpreadsheetBench 电子表格编辑得分 45.5%,大幅领先 Excel Copilot 20%。
Agent 会在关键操作前征求授权,可随时暂停 / 介入;任务完成后支持通知推送。OpenAI 强调“授予最低必要权限”的安全原则,以防钓鱼邮件等外部诱导。传统 RPA 偏“录屏+脚本”,而 Agent 天然具备推理与上下文记忆,可动态调整流程。
与旧版工具的差异一览:在功能、策略、输出与安全控制都有了本质提升
ChatGPT Agent的技术堆栈大致是怎么样的?
详细看了一下官方与第三方评测,五层核心 + 多工具 + 沙盒 VM构成了 ChatGPT Agent 的技术堆栈;模型‑安全双栈并重:RL‑driven 任务成功率与重兵布防的 prompt‑injection 处理并行;相比传统自动化脚本,具备自我规划与动态重试能力,同时保持用户可见、可介入的执行透明度。
顶层架构概览:五层 Agent Core
核心思想把「计划‑控制‑执行‑记忆‑交互」解耦,实现松耦合、可升级的 Agent 框架。
工具栈:集成通用的各种任务工具
所有工具运行于 隔离虚拟机:远程 macOS 实例(OpenAI 内部 KVM 池),带软限时与资源沙盒,且用户可一键清除 Cookie 与 VM 状态。
使用的基座模型:o3 系列进阶版(RL‑finetune + 128 k 上下文),在 Computer‑Using Agent 数据集上继续强化学习。
多阶段 RL使用较多:
Imitation:复现人类演示(Operator 日志、深度研究论文写作)。
Self‑Play / RLAIF:模型自行生成任务‑反馈对,低成本扩充轨迹。
Reward mixing:综合正确率、用时、用户确认次数等多维信号。
与竞对也就是与Manus / Google Gemini / Anthropic Claude Agent对比如何?
ChatGPT Agent通过虚拟机+多工具组合实现最高的通用性与可监控性,适合需要可视化、可下载产出的知识工作流程。
Manus主打“端到端自治”,在 GAIA 上跑出高分,但公开安全细节有限,当前以等待列表为主,更多偏早期尝鲜。
Google将 Agent 能力嵌入 Gemini 生态,长板是跨设备(语音/视频)与 Google 服务整合,短板是尚未公开完整沙盒细节与计价。
Anthropic定位“开发者友好工具包”,把 Agent 拆成可组合模式;安全哲学是先简再进,强调透明度而非全自动。
定位与执行方式
ChatGPT Agent:通过云端虚拟电脑+多工具栈,采用「Planner‑Controller」分层架构,给用户完整的“思考‑行动‑回溯”闭环。
Manus AI:主打“全自动”一键执行,细节相对封闭,暂无公开沙盒。
Google Gemini Agents:以「积木式」工具盒为核心,计划整合进 Gemini Live / Mariner,可并行 10 个以上任务;Project Astra 展示了语音、视频与屏幕共享的即‑时协作。
Anthropic Claude Agents:强调“可组合”最佳实践,Orchestrator‑Workers 等模板让开发者自由拼装;工具需开发者自行在 API 内声明。
长程规划与世界模型
ChatGPT 借助分层 Planner 在复杂项目上表现稳定。
Gemini 宣称具备“World Model”推演能力,可对多任务并行调度。
Claude 提供最简 Orchestrator 骨架,方便插入自家任务规划逻辑。
Manus 的内部机制相对模糊,更多依赖其端到端流程。
多模态覆盖
ChatGPT 目前支持文本、网页截图与代码运行。
Manus 官方展示了文本+图像+代码三模态。
Gemini 借 Astra 扩展到语音、视频和屏幕共享,目标打造“全感官”助手。
Claude 仍以文本为主,单独推出 Claude Code 专注编程场景。
安全与治理
ChatGPT 采用“三层沙盒+用户显式授权”模式,风险隔离最彻底。
Google 在自家安全栈和政策框架上拥有优势,尤其合规与数据防护。
Claude 把“可审计”和“可插安全钩子”写进 MCP 协议,方便企业自定审计流程。
Manus 以“透明可解释”为卖点,但公开资料最少,尚待验证。
ChatGPT 在 HLE、SpreadsheetBench 等公开基准上公布了具体分数,透明度较高。Claude 在 SWE‑bench Verified 上解决真实 GitHub issue,突出工程能力。Manus 自称 GAIA 三档 SOTA,但缺少第三方复测。Gemini 侧重场景演示(Astra、Mariner),官方基准数据较少。
商业化策略
ChatGPT 已形成清晰订阅分层(Plus/Pro)。
Gemini Live/Astra 预期走高阶订阅,Mariner 面向企业。
Claude 维持 API 计费+企业自建双线;“Claude‑in‑Slack”等插件加速分销。
Manus 仍处邀请制与免费试用阶段,收费方案未定。
综合来看
ChatGPT Agent 在可用性(工具生态)、安全隔离与透明基准方面领先;更像“一体化办公 OS”。
Google Gemini 把多模态与并行任务做到最极致,适合需要视频/语音实时交互、重协作的场景。
Anthropic Claude 以“可组合、安全审计”吸引对治理要求高的企业;工程代码场景表现突出。
Manus AI 凭“端到端全自动”获得关注,但生态、合规与公开基准仍待时间检验。
一次任务的执行链示例
比如我给了他一个高难度任务,参考ARKK对特斯拉的估值模型,自己做一个特斯拉的深度估值模型并导出成EXCEL,这个时候agent就开始规划-拆分任务等一系列操作,最终输出结果。
“降维打击”——为何 ChatGPT Agent 对传统 RPA/脚本型 Agent 形成维度压制?
学习型控制:Planner‑Controller 在推理时决定下一个工具,而非固定流程脚本。
统一多模态:视觉、文本、代码 trace 都回到同一 LLM token 流,闭环学习。
安全‑优先:沙盒 + 逐步确认的“最小可行动作”原则,比 Auto‑GPT 之类的无界 Shell 更易落地生产。
RPA:流程录制 + 规则 = 函数式;任何 UI 细节变动都需重录,属于 高初建‑高维护 曲线。
ChatGPT Agent:自然语言 Prompt + LLM 推理 + 工具链 = 推理式;模型可在运行时重新规划,曲线趋近 低初建‑低维护,对非工程团队友好。
能力覆盖面扩张:从“搬砖”到“决策+创作”的转变,更能创新
Agent 吞噬了 RPA 原来 70‑80% 的“简单流程”护城河,同时向上啃食 Excel 宏、BI、低代码平台的价值版图。
经济模型重构:订阅‑调用 vs 流程‑座席授权
计费模式
传统 RPA:按「并发机器人数量 + 开发 Studio 授权」收费,一旦上线即锁定年度合同成本;ChatGPT Agent:目前采用 Plus(40 次/月)与 Pro(400 次/月)订阅配额,后续可切换为按调用量计费,费用弹性更大。
单位产出效率
传统 RPA:开发一条自动化流程通常需要专业工程师 2‑4 周。ChatGPT Agent:业务人员自行操作,约 20 分钟即可做出可用 MVP;例如用 20 分钟生成完整的提前退休方案。
ROI 拐点
传统 RPA:先签年度合同、安排培训,再逐步验证投资回报,前期沉没成本高;ChatGPT Agent:月度订阅,随时启停,试错成本低,投入‑产出转正速度更快。
更细颗粒的“使用计费”把 TAM² 从数十亿美元 RPA 扩大到百亿美元级“AI 生产力”市场(2024‑34 CAGR ≈ 25%)
极度稳定的核心交易系统(银行主机、SAP Green Screen):UI 变化极少,RPA 成本已摊平,Agent 收益不足以覆盖迁移风险。
高并发、毫秒级操作(实时订单撮合):LLM 推理延迟仍以秒计,RPA 脚本胜出。
完全离线、无网络隔离区:ChatGPT Agent 需云沙盒;本地 LLM 方案仍在早期。
ChatGPT Agent 把“流程自动化”从 规则录制晋级到语义驱动、动态规划,在可用性、适应性、经济模式上实现全面跨维升级。传统 RPA 仍有局部护城河,但若不快速拥抱 LLM‑Agent,将在主流自动化场景被逐步替代。
通用套壳,底层基于大模型,对于底层模型理解完全不及大模型公司,像Manus那种想做通用的一定会和大模型公司撞车,最终会被大模型公司吞噬?
①纯“通用套壳”Agent ≠ 护城河:只把别家大模型包一层工具调度,很难与直接拥有模型、渠道和算力的平台长期竞争。
②垂直专精 + 数据 + 合规,才是创业公司可以与大厂错位生存、甚至反超的核心。
③Manus 式“通用 Agent”会被吞并还是活下来?
取决于能否快速下沉到(1)独占数据回路、(2)差异化工具链、(3)渠道壁垒三者中的至少一个,否则大概率在下一轮模型升级里被边缘化。
价值链视角:哪一层最容易被“降维”?
大模型公司同时牢牢占据 模型服务层 + 通用 Agent 框架(OpenAI Agent、Gemini Live、Claude Workflows)。
Manus之类创业公司若只做任务编排层且仍调用第三方基础模型,就处在“双面被夹”位置:上游价格受制,功能随时被下游应用直接调用官方 Agent 替代。TechCrunch 也指出 Manus 的演示“并未如宣传般顺畅”且收费 39–199 美元/席位,性价比受质疑。
护城河来源 | 典型做法 |
专有数据闭环 | 嵌入业务系统,持续回收标签或对话 |
合规/监管门槛 | 行业安全测试、专利、流程认证 |
深度工作流整合 | 对接专业软件(eDiscovery、EHR、PLM),改变 KPI |
渠道/信任 | 咨询、BPO、ISV 联合销售 |
Vertical AI 通过深耕行业规则和专属数据在精度上“吊打”通用模型,而通用模型想跨过合规壁垒要付出的成本呈指数增长 Turian。
通用 Agent 初创还能怎么活?
战略选项 | 可行性 |
快速下沉垂直场景 | 把框架变“行业骨架”,开放插件给专业 ISV |
自研或深度定制模型 | 训练小型专用 LLM(2–7 B)+ RAG,降低 API 成本 |
成为多模型调度层 | 做“Any‑LLM Router + 最优成本/合规策略” |
社区网络效应 | 开源 agentic DSL / UI,让开发者贡献工具 |
给创业者 / 投资人的提示有哪些?
先找数据源,再写代码:没有可迭代的私有数据,Agent 只能停留在“把别人 API 拧在一起”的层级。
合规当作产品功能:越在高监管行业,越能以“合规即护城河”锁用户。
衡量指标:不仅是 MAU,而是单位任务盈利与数据闭环增益速率(数据→模型→更好任务→更多数据)。
通用 Agent 市场正在“高热+快速淘汰”——拿到种子后 6–9 个月内要验证行业 PMF,否则很容易被同类或大厂功能更新抹平差距。
“模型层壁垒+通用框架” 已由巨头占位。Agentic AI 初创若只做“通用套壳”,就是跟 OpenAI、Google、Anthropic 在同一维度硬碰。唯有下沉行业、掌控专属数据与合规场景,才能拉开“维度差”,避免被下一代大模型一键替换。
全文完。