AI自主上网购物成真!OpenAI博士级Agent Operator发布:你需要了解的 4 个核心要点(附视频)

管理智慧

1天前

根据OpenAI的现场直播,Operator承诺可自动执行预订旅行住宿、餐厅订位和在线购物等任务。...从使用方法来看,Operator作为独立于ChatGPT的创新工具,需要探索独特的最优使用模式。

作者|AI工作坊

来源 | AI深度研究员 管理智慧

咨询合作| 13699120588

文章仅代表作者本人观点

Operator发布会完整视频)

AI自主上网购物真的要来了吗?是的。

OpenAI CEO Sam Altman早前博客预测:2025年将是AI Agent取得重大突破的一年。而在周四1月23日,这一预测已现端倪—— OpenAI发布了其具备“博士”能力的AI Agent产品预览版Operator。

这款重磅工具不仅能模拟人类操作网页浏览器,更能自主完成从网上购物到旅行预订等复杂任务。它标志着AI正从简单的对话助手,向真正能够"替人办事"的智能助手跨进。从此,AI不再局限于回答问题,而是能实际代表用户在互联网上行动。

作为战略性推广的第一步,Operator 目前仅向美国地区的 ChatGPT Pro 订阅用户(月费 200 美元)开放。在产品发布直播中,Altman 表示将逐步扩展至其他订阅层级,但欧洲等地区的上线时间可能较晚,这或与当地的 AI 监管政策有关。

01

OpenAI的Agent计划

目前,该研究预览版可通过 operator.chatgpt.com 访问,但 OpenAI 计划未来将 Operator 集成到所有 ChatGPT 客户端中。根据 OpenAI 的现场直播,Operator 承诺可自动执行预订旅行住宿、餐厅订位和在线购物等任务。用户可以在 Operator 界面中选择不同类别的任务,包括购物、外卖、餐饮和旅行,每个类别都对应不同类型的自动化功能。

Operator 似乎是 OpenAI 在 AI 代理领域迄今最为大胆的尝试。就在上周,OpenAI 推出了 Tasks,为 ChatGPT 提供了简单的自动化功能,比如设置提醒和安排每日定时执行的提示词。Tasks 赋予了 ChatGPT 一些类似 Siri 或 Alexa 的基础功能,使其更具实用性。然而,Operator 展示了前几代虚拟助手从未具备的能力。

AI 代理被认为是 ChatGPT 之后 AI 发展的下一件大事——这项新技术可能会改变人们使用互联网和个人电脑的方式。与仅限于提供和处理信息的传统 AI 不同,理论上,AI 代理可以主动采取行动、执行任务。

02

Operator 工作原理

OpenAI 表示,Operator 由一款计算机使用代理(Computer-Using Agent,简称 CUA)驱动,该代理结合了公司 GPT-4o 模型的视觉能力以及 OpenAI 更先进模型的推理能力。CUA 经过训练,可与网站的前端界面交互,这意味着它无需依赖面向开发者的 API,即可访问不同的服务。

换句话说,CUA 能够像人类一样使用按钮、导航菜单,并在网页上填写表单。CUA 模型经过训练,在执行可能产生外部影响的任务之前,会先请求用户确认。例如,在提交订单或发送电子邮件之前,用户可以进行最终检查,以确保模型的操作符合预期。”OpenAI 表示:“CUA已在多种场景中展现出实用价值,我们的目标是让其在更广泛的任务范围内保持高可靠性。

然而,OpenAI 也警告称,CUA 并不完美。公司表示,目前CUA还无法在所有场景下都能稳定可靠地运行。”出于谨慎考虑,OpenAI 还要求对某些任务进行监督,比如涉及银行交易的操作,即便 CUA 和 Operator 技术上能够独立完成这些任务。

OpenAI 在其支持文档中提到:“在一些特别敏感的网站上,比如电子邮件,Operator 需要用户进行主动监督,确保用户可以直接发现并纠正模型可能犯的任何错误。”

03

Operator 使用指南

操作过程

当 ChatGPT 用户启用 Operator 时,将弹出一个小窗口,显示该代理所使用的专属网页浏览器,以执行任务,并提供其正在执行的具体操作的说明。用户在 Operator 运行时仍可自行控制屏幕,因为 Operator 使用的是独立的浏览器。

要开始使用,只需描述你想要执行的任务,Operator 便可自动处理。用户可以随时接管 远程浏览器 的控制权,而在涉及登录、支付信息输入或 CAPTCHA 识别等任务时,Operator 也会主动提示用户接管。

功能定制

用户可以在 Operator 中 个性化工作流,添加自定义指令,适用于所有网站或特定网站,例如在 Booking.com 预设航空公司偏好。Operator 还允许用户 保存提示词,方便主页快捷访问,适用于 Instacart 等平台上的重复性任务,如定期补充食品杂货。

应用实例

  1. 智能采购:根据图片和菜谱订购晚餐食材

Operator 能识别菜谱图片中的食材清单,并自动在指定电商平台匹配相应商品。系统会基于价格、新鲜度和配送时效进行智能筛选,确保食材及时送达。

  1. 旅行规划:根据预算及个人偏好自动生成方案

根据我的预算和兴趣规划周末旅行,请注意,在 0:06 时,ChatGPT Operator 被“Reddit”网站屏蔽,系统展现了类人化的决策能力:当遭遇"Reddit"网站屏蔽时,Operator 迅速转向 Bing 搜索引擎获取相关信息,保证了旅行规划的连续性和完整性。"

  1. 投资分析:需要人工验证的证券研究

注意 ChatGPT Operator 在收集投资数据过程中遇到人机验证码时,会主动向用户发送验证请求。这种人机协作模式既确保了数据收集的连续性,也保障了投资研究的安全性。"

  1. 航班预订:全程对话式确认,实时调整方案

使用 Booking 集成预订从 苏黎世 飞往 维也纳 的单程航班。这个过程需要反复沟通,ChatGPT Operator 会向我发送消息,询问我的航班偏好,并让我输入付款详细信息

04

Operator 实践评测

实践体验显示,Operator 在任务自动化方面表现出色。其后台自主运行的特性极大减少了人工干预,智能任务保存和个性化配置功能也大幅提升了使用效率。人机协作机制设计合理,在关键节点的交互提示恰到好合。

然而,作为研究预览版本,Operator 也面临一些现实挑战。部分网站对 AI 访问的封禁以及有限的合作平台覆盖范围,在一定程度上制约了其应用场景。值得注意的是,Operator 的功能定位专注于网页交互自动化,这与 ChatGPT 的内容创作能力形成了鲜明对比。

从使用方法来看,Operator 作为独立于 ChatGPT 的创新工具,需要探索独特的最优使用模式。这种探索过程与 GPT-4 思维链提示或 GPT-4o 视觉理解的发展轨迹颇为相似。目前的应用实践仅展现了 Operator 潜力的一小部分,其未来发展值得期待。

参考资料:https://www.youtube.com/watch?v=CSE77wAdDLgt=5sab_channel=OpenAI

END

华夏基石AI战略领导力特训营2025年第四期开始报名!

抓住数字智能时代的机遇,团报即可享受优惠!

机会难得,名额有限,别错过!

报名及咨询:柳老师15202171854

喜欢这篇文章

请为我点赞和在看

根据OpenAI的现场直播,Operator承诺可自动执行预订旅行住宿、餐厅订位和在线购物等任务。...从使用方法来看,Operator作为独立于ChatGPT的创新工具,需要探索独特的最优使用模式。

作者|AI工作坊

来源 | AI深度研究员 管理智慧

咨询合作| 13699120588

文章仅代表作者本人观点

Operator发布会完整视频)

AI自主上网购物真的要来了吗?是的。

OpenAI CEO Sam Altman早前博客预测:2025年将是AI Agent取得重大突破的一年。而在周四1月23日,这一预测已现端倪—— OpenAI发布了其具备“博士”能力的AI Agent产品预览版Operator。

这款重磅工具不仅能模拟人类操作网页浏览器,更能自主完成从网上购物到旅行预订等复杂任务。它标志着AI正从简单的对话助手,向真正能够"替人办事"的智能助手跨进。从此,AI不再局限于回答问题,而是能实际代表用户在互联网上行动。

作为战略性推广的第一步,Operator 目前仅向美国地区的 ChatGPT Pro 订阅用户(月费 200 美元)开放。在产品发布直播中,Altman 表示将逐步扩展至其他订阅层级,但欧洲等地区的上线时间可能较晚,这或与当地的 AI 监管政策有关。

01

OpenAI的Agent计划

目前,该研究预览版可通过 operator.chatgpt.com 访问,但 OpenAI 计划未来将 Operator 集成到所有 ChatGPT 客户端中。根据 OpenAI 的现场直播,Operator 承诺可自动执行预订旅行住宿、餐厅订位和在线购物等任务。用户可以在 Operator 界面中选择不同类别的任务,包括购物、外卖、餐饮和旅行,每个类别都对应不同类型的自动化功能。

Operator 似乎是 OpenAI 在 AI 代理领域迄今最为大胆的尝试。就在上周,OpenAI 推出了 Tasks,为 ChatGPT 提供了简单的自动化功能,比如设置提醒和安排每日定时执行的提示词。Tasks 赋予了 ChatGPT 一些类似 Siri 或 Alexa 的基础功能,使其更具实用性。然而,Operator 展示了前几代虚拟助手从未具备的能力。

AI 代理被认为是 ChatGPT 之后 AI 发展的下一件大事——这项新技术可能会改变人们使用互联网和个人电脑的方式。与仅限于提供和处理信息的传统 AI 不同,理论上,AI 代理可以主动采取行动、执行任务。

02

Operator 工作原理

OpenAI 表示,Operator 由一款计算机使用代理(Computer-Using Agent,简称 CUA)驱动,该代理结合了公司 GPT-4o 模型的视觉能力以及 OpenAI 更先进模型的推理能力。CUA 经过训练,可与网站的前端界面交互,这意味着它无需依赖面向开发者的 API,即可访问不同的服务。

换句话说,CUA 能够像人类一样使用按钮、导航菜单,并在网页上填写表单。CUA 模型经过训练,在执行可能产生外部影响的任务之前,会先请求用户确认。例如,在提交订单或发送电子邮件之前,用户可以进行最终检查,以确保模型的操作符合预期。”OpenAI 表示:“CUA已在多种场景中展现出实用价值,我们的目标是让其在更广泛的任务范围内保持高可靠性。

然而,OpenAI 也警告称,CUA 并不完美。公司表示,目前CUA还无法在所有场景下都能稳定可靠地运行。”出于谨慎考虑,OpenAI 还要求对某些任务进行监督,比如涉及银行交易的操作,即便 CUA 和 Operator 技术上能够独立完成这些任务。

OpenAI 在其支持文档中提到:“在一些特别敏感的网站上,比如电子邮件,Operator 需要用户进行主动监督,确保用户可以直接发现并纠正模型可能犯的任何错误。”

03

Operator 使用指南

操作过程

当 ChatGPT 用户启用 Operator 时,将弹出一个小窗口,显示该代理所使用的专属网页浏览器,以执行任务,并提供其正在执行的具体操作的说明。用户在 Operator 运行时仍可自行控制屏幕,因为 Operator 使用的是独立的浏览器。

要开始使用,只需描述你想要执行的任务,Operator 便可自动处理。用户可以随时接管 远程浏览器 的控制权,而在涉及登录、支付信息输入或 CAPTCHA 识别等任务时,Operator 也会主动提示用户接管。

功能定制

用户可以在 Operator 中 个性化工作流,添加自定义指令,适用于所有网站或特定网站,例如在 Booking.com 预设航空公司偏好。Operator 还允许用户 保存提示词,方便主页快捷访问,适用于 Instacart 等平台上的重复性任务,如定期补充食品杂货。

应用实例

  1. 智能采购:根据图片和菜谱订购晚餐食材

Operator 能识别菜谱图片中的食材清单,并自动在指定电商平台匹配相应商品。系统会基于价格、新鲜度和配送时效进行智能筛选,确保食材及时送达。

  1. 旅行规划:根据预算及个人偏好自动生成方案

根据我的预算和兴趣规划周末旅行,请注意,在 0:06 时,ChatGPT Operator 被“Reddit”网站屏蔽,系统展现了类人化的决策能力:当遭遇"Reddit"网站屏蔽时,Operator 迅速转向 Bing 搜索引擎获取相关信息,保证了旅行规划的连续性和完整性。"

  1. 投资分析:需要人工验证的证券研究

注意 ChatGPT Operator 在收集投资数据过程中遇到人机验证码时,会主动向用户发送验证请求。这种人机协作模式既确保了数据收集的连续性,也保障了投资研究的安全性。"

  1. 航班预订:全程对话式确认,实时调整方案

使用 Booking 集成预订从 苏黎世 飞往 维也纳 的单程航班。这个过程需要反复沟通,ChatGPT Operator 会向我发送消息,询问我的航班偏好,并让我输入付款详细信息

04

Operator 实践评测

实践体验显示,Operator 在任务自动化方面表现出色。其后台自主运行的特性极大减少了人工干预,智能任务保存和个性化配置功能也大幅提升了使用效率。人机协作机制设计合理,在关键节点的交互提示恰到好合。

然而,作为研究预览版本,Operator 也面临一些现实挑战。部分网站对 AI 访问的封禁以及有限的合作平台覆盖范围,在一定程度上制约了其应用场景。值得注意的是,Operator 的功能定位专注于网页交互自动化,这与 ChatGPT 的内容创作能力形成了鲜明对比。

从使用方法来看,Operator 作为独立于 ChatGPT 的创新工具,需要探索独特的最优使用模式。这种探索过程与 GPT-4 思维链提示或 GPT-4o 视觉理解的发展轨迹颇为相似。目前的应用实践仅展现了 Operator 潜力的一小部分,其未来发展值得期待。

参考资料:https://www.youtube.com/watch?v=CSE77wAdDLgt=5sab_channel=OpenAI

END

华夏基石AI战略领导力特训营2025年第四期开始报名!

抓住数字智能时代的机遇,团报即可享受优惠!

机会难得,名额有限,别错过!

报名及咨询:柳老师15202171854

喜欢这篇文章

请为我点赞和在看

展开
打开“财经头条”阅读更多精彩资讯
APP内打开