财经头条

提升一亿中产阶级阅读效率

打开

ChatGPT Agent来了，RPA与Manus何去何从？

贝叶斯之美

3周前

千呼万唤始出来，OpenAI推出了自己的agent，并集成到了ChatGPT中。

OpenAI 把“思考‑执行‑再思考”的循环跑通，并在 40 多个真实工作基准上显著超越人类或旧模型，这意味着生产力场景第一次有了可量化的替代临界点。

ChatGPT Agent 不再只是“问答助手”，而是一枚可“思考‑行动” 的通用智能体。它拥有自己的虚拟电脑，可在浏览器、终端、API 之间自主切换，完成从网页交互、文件下载与处理，到生成可编辑 PPT / 表格的端到端工作流程。现已向 Pro／Plus／Team 计划用户推出，界面中新增「Agent 模式」切换。企业版与教育版将在夏末开放；Pro 用户每月约 400 次调用额度，Plus/Team 每月 40 次。

性能层面，Humanity’s Last Exam（综合专家级考试）Pass@1 ＝ 41.6%，几乎是 o3 / o4‑mini 的两倍；并行 8 路后可提升至 44.4%；FrontierMath 难题正确率 27.4%；DSBench 数据科学任务、人类平均水平被反超；SpreadsheetBench 电子表格编辑得分 45.5%，大幅领先 Excel Copilot 20%。

Agent 会在关键操作前征求授权，可随时暂停 / 介入；任务完成后支持通知推送。OpenAI 强调“授予最低必要权限”的安全原则，以防钓鱼邮件等外部诱导。传统 RPA 偏“录屏＋脚本”，而 Agent 天然具备推理与上下文记忆，可动态调整流程。

与旧版工具的差异一览：在功能、策略、输出与安全控制都有了本质提升

ChatGPT Agent的技术堆栈大致是怎么样的？

详细看了一下官方与第三方评测，五层核心 + 多工具 + 沙盒 VM构成了 ChatGPT Agent 的技术堆栈；模型‑安全双栈并重：RL‑driven 任务成功率与重兵布防的 prompt‑injection 处理并行；相比传统自动化脚本，具备自我规划与动态重试能力，同时保持用户可见、可介入的执行透明度。

顶层架构概览：五层 Agent Core

核心思想把「计划‑控制‑执行‑记忆‑交互」解耦，实现松耦合、可升级的 Agent 框架。

工具栈：集成通用的各种任务工具

所有工具运行于隔离虚拟机：远程 macOS 实例（OpenAI 内部 KVM 池），带软限时与资源沙盒，且用户可一键清除 Cookie 与 VM 状态。

使用的基座模型：o3 系列进阶版（RL‑finetune + 128 k 上下文），在 Computer‑Using Agent 数据集上继续强化学习。

多阶段 RL使用较多：

Imitation：复现人类演示（Operator 日志、深度研究论文写作）。
Self‑Play / RLAIF：模型自行生成任务‑反馈对，低成本扩充轨迹。
Reward mixing：综合正确率、用时、用户确认次数等多维信号。

与竞对也就是与Manus / Google Gemini / Anthropic Claude Agent对比如何？

ChatGPT Agent通过虚拟机+多工具组合实现最高的通用性与可监控性，适合需要可视化、可下载产出的知识工作流程。
Manus主打“端到端自治”，在 GAIA 上跑出高分，但公开安全细节有限，当前以等待列表为主，更多偏早期尝鲜。
Google将 Agent 能力嵌入 Gemini 生态，长板是跨设备（语音/视频）与 Google 服务整合，短板是尚未公开完整沙盒细节与计价。
Anthropic定位“开发者友好工具包”，把 Agent 拆成可组合模式；安全哲学是先简再进，强调透明度而非全自动。

定位与执行方式

ChatGPT Agent：通过云端虚拟电脑+多工具栈，采用「Planner‑Controller」分层架构，给用户完整的“思考‑行动‑回溯”闭环。

Manus AI：主打“全自动”一键执行，细节相对封闭，暂无公开沙盒。
Google Gemini Agents：以「积木式」工具盒为核心，计划整合进 Gemini Live / Mariner，可并行 10 个以上任务；Project Astra 展示了语音、视频与屏幕共享的即‑时协作。
Anthropic Claude Agents：强调“可组合”最佳实践，Orchestrator‑Workers 等模板让开发者自由拼装；工具需开发者自行在 API 内声明。

长程规划与世界模型

ChatGPT 借助分层 Planner 在复杂项目上表现稳定。

Gemini 宣称具备“World Model”推演能力，可对多任务并行调度。
Claude 提供最简 Orchestrator 骨架，方便插入自家任务规划逻辑。
Manus 的内部机制相对模糊，更多依赖其端到端流程。

多模态覆盖

ChatGPT 目前支持文本、网页截图与代码运行。

Manus 官方展示了文本+图像+代码三模态。
Gemini 借 Astra 扩展到语音、视频和屏幕共享，目标打造“全感官”助手。
Claude 仍以文本为主，单独推出 Claude Code 专注编程场景。

安全与治理

ChatGPT 采用“三层沙盒+用户显式授权”模式，风险隔离最彻底。

Google 在自家安全栈和政策框架上拥有优势，尤其合规与数据防护。
Claude 把“可审计”和“可插安全钩子”写进 MCP 协议，方便企业自定审计流程。
Manus 以“透明可解释”为卖点，但公开资料最少，尚待验证。

ChatGPT 在 HLE、SpreadsheetBench 等公开基准上公布了具体分数，透明度较高。Claude 在 SWE‑bench Verified 上解决真实 GitHub issue，突出工程能力。Manus 自称 GAIA 三档 SOTA，但缺少第三方复测。Gemini 侧重场景演示（Astra、Mariner），官方基准数据较少。

商业化策略

ChatGPT 已形成清晰订阅分层（Plus／Pro）。

Gemini Live／Astra 预期走高阶订阅，Mariner 面向企业。
Claude 维持 API 计费+企业自建双线；“Claude‑in‑Slack”等插件加速分销。
Manus 仍处邀请制与免费试用阶段，收费方案未定。

综合来看

ChatGPT Agent 在可用性（工具生态）、安全隔离与透明基准方面领先；更像“一体化办公 OS”。
Google Gemini 把多模态与并行任务做到最极致，适合需要视频/语音实时交互、重协作的场景。
Anthropic Claude 以“可组合、安全审计”吸引对治理要求高的企业；工程代码场景表现突出。
Manus AI 凭“端到端全自动”获得关注，但生态、合规与公开基准仍待时间检验。

一次任务的执行链示例

比如我给了他一个高难度任务，参考ARKK对特斯拉的估值模型，自己做一个特斯拉的深度估值模型并导出成EXCEL，这个时候agent就开始规划-拆分任务等一系列操作，最终输出结果。

最后经过6分钟的运行，输出了一个Excel：

分表格分情景，bull-bear-base等场景来展开，像模像样的。

“降维打击”——为何 ChatGPT Agent 对传统 RPA/脚本型 Agent 形成维度压制？

与传统 RPA / Agent 的差异明显，且存在降维打击：

学习型控制：Planner‑Controller 在推理时决定下一个工具，而非固定流程脚本。
统一多模态：视觉、文本、代码 trace 都回到同一 LLM token 流，闭环学习。
安全‑优先：沙盒 + 逐步确认的“最小可行动作”原则，比 Auto‑GPT 之类的无界 Shell 更易落地生产。

在开发‑维护曲线上“降一个维度”：

RPA：流程录制 + 规则 = 函数式；任何 UI 细节变动都需重录，属于 高初建‑高维护 曲线。
ChatGPT Agent：自然语言 Prompt + LLM 推理 + 工具链 = 推理式；模型可在运行时重新规划，曲线趋近 低初建‑低维护，对非工程团队友好。

能力覆盖面扩张：从“搬砖”到“决策＋创作”的转变，更能创新

Agent 吞噬了 RPA 原来 70‑80% 的“简单流程”护城河，同时向上啃食 Excel 宏、BI、低代码平台的价值版图。

经济模型重构：订阅‑调用 vs 流程‑座席授权

计费模式

传统 RPA：按「并发机器人数量 + 开发 Studio 授权」收费，一旦上线即锁定年度合同成本；ChatGPT Agent：目前采用 Plus（40 次/月）与 Pro（400 次/月）订阅配额，后续可切换为按调用量计费，费用弹性更大。

单位产出效率

传统 RPA：开发一条自动化流程通常需要专业工程师 2‑4 周。ChatGPT Agent：业务人员自行操作，约 20 分钟即可做出可用 MVP；例如用 20 分钟生成完整的提前退休方案。

ROI 拐点

传统 RPA：先签年度合同、安排培训，再逐步验证投资回报，前期沉没成本高；ChatGPT Agent：月度订阅，随时启停，试错成本低，投入‑产出转正速度更快。

更细颗粒的“使用计费”把 TAM² 从数十亿美元 RPA 扩大到百亿美元级“AI 生产力”市场（2024‑34 CAGR ≈ 25%）

短期护城河仍在的三类场景

极度稳定的核心交易系统（银行主机、SAP Green Screen）：UI 变化极少，RPA 成本已摊平，Agent 收益不足以覆盖迁移风险。
高并发、毫秒级操作（实时订单撮合）：LLM 推理延迟仍以秒计，RPA 脚本胜出。
完全离线、无网络隔离区：ChatGPT Agent 需云沙盒；本地 LLM 方案仍在早期。

ChatGPT Agent 把“流程自动化”从规则录制晋级到语义驱动、动态规划，在可用性、适应性、经济模式上实现全面跨维升级。传统 RPA 仍有局部护城河，但若不快速拥抱 LLM‑Agent，将在主流自动化场景被逐步替代。

通用套壳，底层基于大模型，对于底层模型理解完全不及大模型公司，像Manus那种想做通用的一定会和大模型公司撞车，最终会被大模型公司吞噬？

先说说我的看法：

①纯“通用套壳”Agent ≠ 护城河：只把别家大模型包一层工具调度，很难与直接拥有模型、渠道和算力的平台长期竞争。

②垂直专精 + 数据 + 合规，才是创业公司可以与大厂错位生存、甚至反超的核心。

③Manus 式“通用 Agent”会被吞并还是活下来？

取决于能否快速下沉到（1）独占数据回路、（2）差异化工具链、（3）渠道壁垒三者中的至少一个，否则大概率在下一轮模型升级里被边缘化。

价值链视角：哪一层最容易被“降维”？

大模型公司同时牢牢占据模型服务层 + 通用 Agent 框架（OpenAI Agent、Gemini Live、Claude Workflows）。

Manus之类创业公司若只做任务编排层且仍调用第三方基础模型，就处在“双面被夹”位置：上游价格受制，功能随时被下游应用直接调用官方 Agent 替代。TechCrunch 也指出 Manus 的演示“并未如宣传般顺畅”且收费 39–199 美元/席位，性价比受质疑。

为什么“垂直”能建立护城河？

护城河来源	典型做法
专有数据闭环	嵌入业务系统，持续回收标签或对话
合规/监管门槛	行业安全测试、专利、流程认证
深度工作流整合	对接专业软件（eDiscovery、EHR、PLM），改变 KPI
渠道/信任	咨询、BPO、ISV 联合销售

Vertical AI 通过深耕行业规则和专属数据在精度上“吊打”通用模型，而通用模型想跨过合规壁垒要付出的成本呈指数增长 Turian。

通用 Agent 初创还能怎么活？

战略选项	可行性
快速下沉垂直场景	把框架变“行业骨架”，开放插件给专业 ISV
自研或深度定制模型	训练小型专用 LLM（2–7 B）＋ RAG，降低 API 成本
成为多模型调度层	做“Any‑LLM Router + 最优成本/合规策略”
社区网络效应	开源 agentic DSL / UI，让开发者贡献工具

给创业者 / 投资人的提示有哪些？

先找数据源，再写代码：没有可迭代的私有数据，Agent 只能停留在“把别人 API 拧在一起”的层级。
合规当作产品功能：越在高监管行业，越能以“合规即护城河”锁用户。
衡量指标：不仅是 MAU，而是单位任务盈利与数据闭环增益速率（数据→模型→更好任务→更多数据）。

通用 Agent 市场正在“高热+快速淘汰”——拿到种子后 6–9 个月内要验证行业 PMF，否则很容易被同类或大厂功能更新抹平差距。

“模型层壁垒＋通用框架” 已由巨头占位。Agentic AI 初创若只做“通用套壳”，就是跟 OpenAI、Google、Anthropic 在同一维度硬碰。唯有下沉行业、掌控专属数据与合规场景，才能拉开“维度差”，避免被下一代大模型一键替换。

全文完。