本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO,原文标题:《刚刚,OpenAI发布首个AI智能体,自动帮你订餐购物,直播翻车,使用前需要知道这些细节》,题图来自:AI生成
今天凌晨,OpenAI CEO Sam Altman宣布了两个重磅消息。
一个是ChatGPT用户不仅将获得o3-mini的免费试用机会,Plus付费订阅会员还将享有更多使用额度。
另一个则是备受期待的首个智能体产品——Operator研究预览版正式亮相。好消息是,它能帮你自动网购,但坏消息是,它可能比较容易“翻车”。
OpenAI总裁Greg Brockman在X平台发文称:“Operator——一种能够使用自己的浏览器为你执行任务的智能体。2025年将是智能体之年。”
OpenAI让AI学会“用电脑”了?这是迈向AGI的第一步
作为OpenAI首款真正模拟人类操作网页浏览器的AI助手,Operator能够自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。
用户可以在多个类别中选择不同的自动化任务,涵盖购物、配送、餐饮和旅行等领域。
这项功能将率先向订阅200美元Pro计划的美国用户开放,随后逐步扩展至Plus、Team和Enterprise级别用户。
API预计将在数周内推出。
用户可通过operator.chatgpt.com访问该服务,OpenAI计划后续将其整合到ChatGPT,不过,ChatGPT在今天凌晨又双叒叕崩了。
简单来说,当用户启用Operator时,系统会弹出一个小窗口,展示专用Web浏览器的操作界面,并实时说明正在执行的任务。在此期间,允许用户随时接管控制。
技术层面,Operator采用远程云端浏览器执行任务,无需依赖网站API。
它通过截图识别界面元素,规划后续动作,形成“观察-计划-执行”的闭环,直至完成任务。系统支持多任务并行处理,运行效率高,且能保持登录状态。
OpenAI已与DoorDash、Instacart、Priceline、StubHub和Uber等公司建立合作。
Instacart首席产品官Daniel Danker就指出“OpenAI的Operator是一项技术突破,它使订购杂货等流程变得异常简单。”
按照惯例,OpenAI也同期召开了一场发布会。Sam Altman与Yash Kumar、Casey Chu和Reiichiro Nakano一起介绍和演示Operator。
演示涵盖了多个实际应用场景,比如通过OpenTable为Beretta餐厅预订双人座位,原定7点档位不可用后改订7:45。
使用Instacart购物系统识别购物清单——鸡蛋、菠菜、蘑菇、鸡腿、薯片,并中途接管添加更多鸡蛋等商品。
在StubHub上试图搜索并选购预算500美元以下的勇士队比赛门票;预约清洁服务;以及计划通过DoorDash点餐,订购烧烤披萨等。
理想很美好,现实很骨感,Operator目前最大的问题还是不够稳定。刚开始演示时还算顺利,但中后期的演示过程中遭遇连环“翻车”,甚至未能成功加载相关网页。
或许是为了确保演示成功,眼瞅着演示人员输入的提示词是越来越长。
X平台大V@rowancheung也提前体验并分享了对Operator的观察。
比方说,Operator虽然在ChatGPT中运行,但功能完全不同,主要专注于网页操作(点击、滚动、输入)而非生成长文本。目前系统仍存在限制,包括部分网站会屏蔽AI访问,合作伙伴集成有限。
他指出Operator需要特定的使用方法来优化效果,就像GPT-4适合CoT提示一样,但目前对Operator的最佳使用方式研究还很初步。
不过,他还是挺看好这项技术能帮助人们自动化处理枯燥工作,从而将时间用于更有价值的事务。
此前有消息称,Operator在执行任务时使用的截图内容可能被恶意利用,导致“提示注入攻击”,存在严重的安全隐患。
因此,确保Operator的安全使用是首要任务。
根据官方博客,OpenAI主要是通过多层保护措施防止滥用并确保用户牢牢控制Operator。
接管模式:Operator在浏览器中输入敏感信息(例如登录凭据或支付信息)时要求用户接管。在接管模式下,运营商不会收集或截图用户输入的信息。
用户确认:在完成任何重大操作(例如提交订单或发送电子邮件)之前,Operator应请求批准。
任务限制:Operator经过培训可以拒绝某些敏感任务,例如银行交易或需要高风险决策的任务,例如对工作申请做出决定。
监视模式:在特别敏感的网站上,例如电子邮件或金融服务,Operator需要对其行为进行密切监督,以便用户能够直接发现任何潜在的错误。
此外,OpenAI针对Operator实施了全面的隐私和安全保护措施。在隐私管理方面,用户可以选择退出模型训练,一键删除浏览数据和历史对话,并注销所有网站。
为防范恶意网站的攻击,系统建立了多层防御机制,包括检测并忽略提示注入、监控可疑行为和建立威胁识别管道。同时,Operator设有审核系统来拒绝有害请求和不当内容,对违规行为发出警告或撤销访问权限。
“体验报告”公布,Operator背后的CUA技术有多强?
Computer-Using Agent(CUA)是支撑Operator的核心技术,它融合了GPT-4o的视觉识别能力和基于强化学习的高级推理功能。
CUA通过训练掌握了与图形用户界面(GUI)交互的能力,能像人类一样操作屏幕上的按钮、菜单和文本框,无需依赖特定的操作系统或网络API。
据悉,其创新之处在于采用通用界面方法,让AI能像人类般操作各类软件工具,突破了传统AI难以应对的众多细分应用场景。
不过OpenAI坦言,CUA还有许多需要改进的地方,比如目前就没法保证在所有场景下都能稳定运行。
OpenAI在Operator中部署的CUA系统展示了不同场景下的性能表现。比如它在基础网页操作和重复性任务方面表现出色,如搜索筛选、创建购物清单和音乐播放列表等任务的成功率达到10/10。
在电商网站搜索商品时也保持9/10的高成功率。但在处理复杂的房产搜索等任务时,成功率降至3/10。
测试还发现,提示词的质量会显著影响任务成功率,例如在场地预订任务中,添加具体时间和操作指引后,成功率从3/10提升至8/10。
系统在处理不熟悉的UI界面和文本编辑时表现欠佳,常出现试错和低效操作,文本编辑任务的成功率仅为4/10。
为了更好地量化Operator的性能指标,发布会上的演示人员也提到了OS World测试和Web Arena测试。
OS World用于评估AI智能体在Linux等操作系统上的导航能力,Operator得分38.1%,高于其他公开系统,但低于人类水平(72.4%)。
Web Arena则是用于测试评估AI智能体在电商网站和社交论坛等网站的导航能力,Operator得分58.1%,同样超过其他公开AI系统,但未达人类水平。
安全方面,演示环节介绍了三个主要的安全考虑方向。首先是系统拒绝执行有害任务,使用审核模型和后续检测,并屏蔽特定网站。
其次对于模型可能存在的错误,系统在进行购买、预订等关键操作前必须获得用户确认,限制高风险任务如银行交易,并在敏感网站启用观察模式。
特别是针对网站对抗性攻击(如提示注入、越狱和钓鱼),系统设计了谨慎导航机制识别并忽略提示注入,实时监控模型检测可疑内容,并建立检测管道快速识别可疑访问模式。
最后系统设有注入监控器(prompt injection monitor),类似防病毒软件,实时监控模型检测可疑内容,发现可疑行为时会暂停执行。
考虑到无法预见所有安全隐患,OpenAI只能先从小规模部署开始,通过持续收集反馈来完善安全机制。
ChatGPT的崛起已经证明,伟大的产品往往诞生于无数次“不完美”的尝试。
OpenAI也坦然承认,目前由CUA支持的Operator只是一项早期技术,虽然在特定场景已证明有用,但仍需通过用户反馈持续改进。
并且,他们计划提高系统在不熟悉界面的适应能力,增强文本编辑精确度,优化对不同提示词的理解能力,并扩展可靠任务的范围。
Altman曾在月初的博客文章中表示,OpenAI已经有信心构建通用人工智能(AGI),并预测2025年第一批AI智能体将“加入劳动力大军”。
包括智谱昨天也宣布推出了GLM-PC。
这是基于智谱多模态大模型CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样“观察”和“操作”计算机,协助用户高效完成各类电脑任务。
可预见的是,这些智能体在未来将具备强大的自主决策和任务执行能力,能够处理复杂任务,甚至在某些领域替代人类工作,并从根本上改变企业的生产方式和产出。
在OpenAI的五级AGI路线图中,智能体处于L3级别,其特点是不仅能思考,还能代表用户采取行动,执行复杂任务。
这样看来,Operator不仅是OpenAI智能体迈出的第一步,也将是迈向AGI的重要一步。
本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO
本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
End
想涨知识 关注虎嗅视频号!
本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO,原文标题:《刚刚,OpenAI发布首个AI智能体,自动帮你订餐购物,直播翻车,使用前需要知道这些细节》,题图来自:AI生成
今天凌晨,OpenAI CEO Sam Altman宣布了两个重磅消息。
一个是ChatGPT用户不仅将获得o3-mini的免费试用机会,Plus付费订阅会员还将享有更多使用额度。
另一个则是备受期待的首个智能体产品——Operator研究预览版正式亮相。好消息是,它能帮你自动网购,但坏消息是,它可能比较容易“翻车”。
OpenAI总裁Greg Brockman在X平台发文称:“Operator——一种能够使用自己的浏览器为你执行任务的智能体。2025年将是智能体之年。”
OpenAI让AI学会“用电脑”了?这是迈向AGI的第一步
作为OpenAI首款真正模拟人类操作网页浏览器的AI助手,Operator能够自动完成预订旅行住宿、餐厅预约和在线购物等复杂任务。
用户可以在多个类别中选择不同的自动化任务,涵盖购物、配送、餐饮和旅行等领域。
这项功能将率先向订阅200美元Pro计划的美国用户开放,随后逐步扩展至Plus、Team和Enterprise级别用户。
API预计将在数周内推出。
用户可通过operator.chatgpt.com访问该服务,OpenAI计划后续将其整合到ChatGPT,不过,ChatGPT在今天凌晨又双叒叕崩了。
简单来说,当用户启用Operator时,系统会弹出一个小窗口,展示专用Web浏览器的操作界面,并实时说明正在执行的任务。在此期间,允许用户随时接管控制。
技术层面,Operator采用远程云端浏览器执行任务,无需依赖网站API。
它通过截图识别界面元素,规划后续动作,形成“观察-计划-执行”的闭环,直至完成任务。系统支持多任务并行处理,运行效率高,且能保持登录状态。
OpenAI已与DoorDash、Instacart、Priceline、StubHub和Uber等公司建立合作。
Instacart首席产品官Daniel Danker就指出“OpenAI的Operator是一项技术突破,它使订购杂货等流程变得异常简单。”
按照惯例,OpenAI也同期召开了一场发布会。Sam Altman与Yash Kumar、Casey Chu和Reiichiro Nakano一起介绍和演示Operator。
演示涵盖了多个实际应用场景,比如通过OpenTable为Beretta餐厅预订双人座位,原定7点档位不可用后改订7:45。
使用Instacart购物系统识别购物清单——鸡蛋、菠菜、蘑菇、鸡腿、薯片,并中途接管添加更多鸡蛋等商品。
在StubHub上试图搜索并选购预算500美元以下的勇士队比赛门票;预约清洁服务;以及计划通过DoorDash点餐,订购烧烤披萨等。
理想很美好,现实很骨感,Operator目前最大的问题还是不够稳定。刚开始演示时还算顺利,但中后期的演示过程中遭遇连环“翻车”,甚至未能成功加载相关网页。
或许是为了确保演示成功,眼瞅着演示人员输入的提示词是越来越长。
X平台大V@rowancheung也提前体验并分享了对Operator的观察。
比方说,Operator虽然在ChatGPT中运行,但功能完全不同,主要专注于网页操作(点击、滚动、输入)而非生成长文本。目前系统仍存在限制,包括部分网站会屏蔽AI访问,合作伙伴集成有限。
他指出Operator需要特定的使用方法来优化效果,就像GPT-4适合CoT提示一样,但目前对Operator的最佳使用方式研究还很初步。
不过,他还是挺看好这项技术能帮助人们自动化处理枯燥工作,从而将时间用于更有价值的事务。
此前有消息称,Operator在执行任务时使用的截图内容可能被恶意利用,导致“提示注入攻击”,存在严重的安全隐患。
因此,确保Operator的安全使用是首要任务。
根据官方博客,OpenAI主要是通过多层保护措施防止滥用并确保用户牢牢控制Operator。
接管模式:Operator在浏览器中输入敏感信息(例如登录凭据或支付信息)时要求用户接管。在接管模式下,运营商不会收集或截图用户输入的信息。
用户确认:在完成任何重大操作(例如提交订单或发送电子邮件)之前,Operator应请求批准。
任务限制:Operator经过培训可以拒绝某些敏感任务,例如银行交易或需要高风险决策的任务,例如对工作申请做出决定。
监视模式:在特别敏感的网站上,例如电子邮件或金融服务,Operator需要对其行为进行密切监督,以便用户能够直接发现任何潜在的错误。
此外,OpenAI针对Operator实施了全面的隐私和安全保护措施。在隐私管理方面,用户可以选择退出模型训练,一键删除浏览数据和历史对话,并注销所有网站。
为防范恶意网站的攻击,系统建立了多层防御机制,包括检测并忽略提示注入、监控可疑行为和建立威胁识别管道。同时,Operator设有审核系统来拒绝有害请求和不当内容,对违规行为发出警告或撤销访问权限。
“体验报告”公布,Operator背后的CUA技术有多强?
Computer-Using Agent(CUA)是支撑Operator的核心技术,它融合了GPT-4o的视觉识别能力和基于强化学习的高级推理功能。
CUA通过训练掌握了与图形用户界面(GUI)交互的能力,能像人类一样操作屏幕上的按钮、菜单和文本框,无需依赖特定的操作系统或网络API。
据悉,其创新之处在于采用通用界面方法,让AI能像人类般操作各类软件工具,突破了传统AI难以应对的众多细分应用场景。
不过OpenAI坦言,CUA还有许多需要改进的地方,比如目前就没法保证在所有场景下都能稳定运行。
OpenAI在Operator中部署的CUA系统展示了不同场景下的性能表现。比如它在基础网页操作和重复性任务方面表现出色,如搜索筛选、创建购物清单和音乐播放列表等任务的成功率达到10/10。
在电商网站搜索商品时也保持9/10的高成功率。但在处理复杂的房产搜索等任务时,成功率降至3/10。
测试还发现,提示词的质量会显著影响任务成功率,例如在场地预订任务中,添加具体时间和操作指引后,成功率从3/10提升至8/10。
系统在处理不熟悉的UI界面和文本编辑时表现欠佳,常出现试错和低效操作,文本编辑任务的成功率仅为4/10。
为了更好地量化Operator的性能指标,发布会上的演示人员也提到了OS World测试和Web Arena测试。
OS World用于评估AI智能体在Linux等操作系统上的导航能力,Operator得分38.1%,高于其他公开系统,但低于人类水平(72.4%)。
Web Arena则是用于测试评估AI智能体在电商网站和社交论坛等网站的导航能力,Operator得分58.1%,同样超过其他公开AI系统,但未达人类水平。
安全方面,演示环节介绍了三个主要的安全考虑方向。首先是系统拒绝执行有害任务,使用审核模型和后续检测,并屏蔽特定网站。
其次对于模型可能存在的错误,系统在进行购买、预订等关键操作前必须获得用户确认,限制高风险任务如银行交易,并在敏感网站启用观察模式。
特别是针对网站对抗性攻击(如提示注入、越狱和钓鱼),系统设计了谨慎导航机制识别并忽略提示注入,实时监控模型检测可疑内容,并建立检测管道快速识别可疑访问模式。
最后系统设有注入监控器(prompt injection monitor),类似防病毒软件,实时监控模型检测可疑内容,发现可疑行为时会暂停执行。
考虑到无法预见所有安全隐患,OpenAI只能先从小规模部署开始,通过持续收集反馈来完善安全机制。
ChatGPT的崛起已经证明,伟大的产品往往诞生于无数次“不完美”的尝试。
OpenAI也坦然承认,目前由CUA支持的Operator只是一项早期技术,虽然在特定场景已证明有用,但仍需通过用户反馈持续改进。
并且,他们计划提高系统在不熟悉界面的适应能力,增强文本编辑精确度,优化对不同提示词的理解能力,并扩展可靠任务的范围。
Altman曾在月初的博客文章中表示,OpenAI已经有信心构建通用人工智能(AGI),并预测2025年第一批AI智能体将“加入劳动力大军”。
包括智谱昨天也宣布推出了GLM-PC。
这是基于智谱多模态大模型CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样“观察”和“操作”计算机,协助用户高效完成各类电脑任务。
可预见的是,这些智能体在未来将具备强大的自主决策和任务执行能力,能够处理复杂任务,甚至在某些领域替代人类工作,并从根本上改变企业的生产方式和产出。
在OpenAI的五级AGI路线图中,智能体处于L3级别,其特点是不仅能思考,还能代表用户采取行动,执行复杂任务。
这样看来,Operator不仅是OpenAI智能体迈出的第一步,也将是迈向AGI的重要一步。
本文来自微信公众号:APPSO (ID:appsolution),作者:APPSO
本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
End
想涨知识 关注虎嗅视频号!