采访硅谷独角兽:Sierra AI联合创始人Clay Bavor深度解读2024年AIGC行业格局,展示AI智能体的实际应用

管理智慧

2周前

我在谷歌的最后10年里,主要从事公司的一些前瞻性项目,有些是与硬件相关的,比如AR/VR项目,有些是与AI相关的,比如GoogleLens和其他AI应用。

作者|  AI工作坊

来源 |  管理智慧

咨询合作| 13699120588

文章仅代表作者本人观点,图片来源于pixabay

一个有趣的现象是,很多时候解决许多AI问题的方法是更多的AI本身。这有点违反直觉,但大型语言模型的一个显著特性是,它们在检测自己输出中的错误方面,比在一开始就不犯那些错误更出色

近日,红杉资本专访了Sierra AI联合创始人Clay Bavor,揭示了这家AI初创公司如何通过对话式人工智能平台改变客户服务领域。

Sierra由前Salesforce联合首席执行官、现任OpenAI董事会主席Bret Taylor与前Google同事Clay Bavor于今年2024年二月共同创立。这家总部位于旧金山的公司承诺提供一个能够通过自然流畅的对话来回答客户问题和解决问题的平台。Sierra的AI代理不仅能够匹配品牌的语调和声音,还能协助处理退款、订阅更新等实际应用场景。

Clay Bavor在采访中详细介绍了Sierra团队在过去18个月中面临的工程挑战和取得的重大突破。公司开发的AgentOS使企业能够创建品牌AI代理,这些代理不仅可以与客户互动,还能遵循细致入微的政策,甚至处理客户保留问题。Sierra通过捕捉企业的品牌声音、价值观和内部流程,创建真正代表业务的AI代理。

Bavor强调,每当技术发生重大变革时,人们与计算机、技术的交互方式都会随之改变,企业与客户互动的方式也会因此发生革命性的转变。从90年代的互联网革命,到2000年代中期社交网络的兴起,再到2015年左右智能手机的普及,如今AI的进步使得创建能够理解语言、生成语言,并且能够进行推理和决策的软件成为可能。

Sierra的技术不仅仅停留在构建代理本身,还包括一些监督代理,它们像"小蟋蟀"一样监督主要代理的工作,确保输出的内容符合事实、不违反相关规定,并防止可能的提示注入攻击。通过这种多层次的架构,Sierra声称已经达到了超过70%的问题解决率,同时保持了高度的安全性和可靠性。

视频时间轴

00:03:20- ChatGPT 时刻之前的 Google

00:12:03- ChatGPT前不可能的事情现在可以实现?

00:23:45- 解决方案是更多的人工智能

00:37:27- 委托代理执行哪些任务?

00:46:22- 当今向客户部署人工智能的现实

00:53:33-公司人工智能体验经理

01:03:54- 基于结果的代理定价模式

文稿整理

旁白:在过去一年半的工作中,我们学到的一个有趣的东西是,解决许多AI问题的方法是更多的AI本身。这有点违反直觉,但大型语言模型的一个显著特性是,它们在检测自己输出中的错误方面,比在一开始就不犯那些错误更出色。

01

谷歌人眼中的“ChatGPT 时刻”

主持人:今天加入我们的是Sierra的联合创始人Clay Bavor。在Clay与他的老朋友Britt Taylor一起创办Sierra之前,他在谷歌工作了18年,在那里他创办并领导了Google Labs、他们的AR/VR项目以及公司的一些前瞻性项目。Sierra正在通过AI代理让每家公司提升其客户体验。没有人比Clay更了解AI代理今天能做什么以及明天能做什么。Clay,这次开场有点有趣,因为我们彼此非常熟悉。但你能不能先向大家介绍一下自己,给我们一点背景资料,然后我们再来谈谈AI的未来以及Sierra在其中将扮演的角色?

嘉宾Clay Bavor:首先,我是旧金山湾区本地人,我成长在离这里不到四五英里的地方。所以,我在湾区长大,见证了.com泡沫的增长和破灭。我学习了计算机科学,大学毕业后直接去了谷歌,在那里工作了18年,直到去年3月。在谷歌,我几乎参与了公司每个部门的工作。我从搜索开始,然后转到广告领域,几年后我负责产品和设计团队,管理现在的Workspace产品,如Gmail、Google Docs和Google Drive等。接下来,我在谷歌的最后10年里,主要从事公司的一些前瞻性项目,有些是与硬件相关的,比如AR/VR项目,有些是与AI相关的,比如Google Lens和其他AI应用。15个月前,我离开谷歌,与我的一位老朋友Brett Taylor共同创办了Sierra。我们在谷歌的早期日子里认识,当时我们都在副产品管理项目中开始了各自的职业生涯。他是第一期,我是第三期,我们很早就认识并保持联系,尤其是在一个年度扑克小组中,如果运气好的话,每年能玩一次。我们在2022年12月见面,看到AI领域发生的一切,这些根本性的全新构建块让我们觉得可以创造一些非常特别的东西,因此我们创办了Sierra。这就是我的介绍。

主持人:其实我很好奇,嗯,我们需要尽快讨论Sierra是什么,但作为乐趣,你们在2022年12月——在ChatGPT时刻之后不久——你们的信念过程是怎样的?或者在那个时刻之后多久,你们决定这项新技术足够有趣,可以围绕它建立一个公司?我可以插入一件有趣的事情吗?希望你能谈到这个。其实在ChatGPT时刻之前,你就已经告诉我一切都会改变。我还清楚地记得你告诉我,你不理解,你将能够描述你想象中的一个场景,他们将能够制作出一部电影,只是通过你谈论这个场景。你还记得你告诉我这些吗?

Clay Bavor:是的,所以我其实对这个问题也很感兴趣。我在谷歌有一个优先的资格,可以看到很多来自2017年Transformer论文的成果,以及早期大型语言模型的出现。在谷歌,最早的一个模型叫做Mina或Lambda,在2020年有一篇论文,介绍了一个几乎可以应对任何话题的对话聊天机器人。我记得即使在那之前,和这个东西的一个预发布原型互动时,我就有一种奇怪的感觉,似乎有某人或某物在对面,这感觉很不一样。还有一个时刻,我想是在2022年年中,当时我们有谷歌的Pathways语言模型的第一个或第二个版本,一个拥有5400亿参数的模型。我们测试它,以评估它有多“聪明”。一个智慧和理性的重要标志就是能以比喻和类比进行思考和推理。所以我们尝试了一些东西,其中一个非常简单的测试就是,我们问Pathways:“用三个字解释黑洞。”它毫不迟疑地回答道:“黑洞吸(Black holes suck)。”我们都觉得这真是个很好的总结。还觉得模型似乎有幽默感,这很酷。真正让我大吃一惊的是,我们问Pathways:“请用电影来解释2008年的金融危机。”它再次毫不犹豫地回答道:“2008年的金融危机就像电影《盗梦空间》,只不过不是梦中梦,而是债务中的债务。”我们所有人都停下来了,想这是什么?它理解了CDO的概念,以及债务的嵌套性,能将其与《盗梦空间》这种梦的嵌套性联系起来。这让我们觉得,这真是一些新的、与众不同的东西。

然后,还有其他几个时刻。我记得第一个DALL-E的论文出来了,他们发表了一篇博文,人们对此反应平平。但对我来说,我记得其中一个亮点是,他们让DALL-E制作了牛油果椅子,我知道这听起来很奇怪,但这里有一组10到20张看起来像牛油果的椅子图片。这不是Photoshop,这些图片以前从未存在过,但模型似乎理解了牛油果和椅子的概念,然后将它们结合在一起,一像素一像素地创建了这些图片。所以我们有了牛油果椅子。

主持人:这真的?我们真的有过椅子是牛油果形状的吗?

Clay Bavor:是的,我们真的有。顺便说一下,我们有时确实在一些事情上花了太多钱,比如那些袋子,也有过类似的情况。所以,我有一种感觉,知道某些东西正在到来。事实上,当时我在谷歌领导的团队Labs已经在早期应用中大量使用大型语言模型了。所以有一个直觉,ChatGPT确实验证了这个直觉。但我认为Brett和我都在过去几年一直关注着这一切,最早是翻译,人类水平的翻译变得更好,然后是语言生成。我认为得益于OpenAI的工程工作、数据工作等等,使得GPT-3变成了ChatGPT,使得普通人不用会写Python代码也能理解这个东西的全部潜力。

02

成功AI商业案例

主持人:我们接下来要谈论AI的未来,谈论代理,谈论客户服务。但首先,你能不能给大家介绍一下Sierra,以及你和Brett创建了什么?

Clay Bavor:简单来说,Sierra使得世界上任何公司都能够创建自己品牌的面向客户的AI,来与客户进行互动,从客户服务到商务交易等。其背景是这样的观察:每当技术发生重大变化时,人们与计算机、与技术的交互方式都会发生改变,企业与客户互动的方式也会因此彻底改变。在90年代,互联网使网站成为可能,企业第一次可以有一个数字门面,向世界展示自己,点击按钮即可更新库存,等等。在2000年代中期到后期,2005到2008年期间,随着社交网络的普及,企业突然可以大规模地与客户互动,进行大规模的对话。到了2015年,随着智能手机的兴起,企业可以将自己公司“瑞士军刀”般的应用装进每个人的口袋里。比如,我敢打赌你手机上有你银行的应用程序,可能就在主屏幕上。

最近几年AI的进步首次使得可以创建能够理解语言、生成语言的软件,而最有趣的是,这种软件能够进行推理和做出决策。它带来了非常令人愉悦的对话体验,比如我们与ChatGPT的互动体验。因此,我们认为这对于企业如何与客户互动是一个巨大的改变。你可以想象一下,现在我们做某些事情的方式与通过对话AI可以做到的相比有何不同。比如购物,你在市场上找一双鞋,或者对于你来说,可能是一些新的哑铃,非常重的,非常小的,然后你在网站上,你基本上要想象公司设计师如何组织产品目录。所以,好吧,男士鞋,男士跑步鞋,男士竞速鞋,轻便的鞋,Vaporfly鞋,我记不得名字了,等等。而通过对话AI,你可以直接说:“嘿,我需要一双超轻便的跑鞋,有点像我上次买的那双,你们有什么推荐的吗?”这有点像早期的雅虎目录,你通过这种层级结构导航找到你想要的东西,而与之对比的是谷歌,你只需解释你想要的东西,然后它带你迈出几步远。

我们与一家公司的客户体验负责人有一个引用,她说:“我不希望我们的客户需要精通我们的产品目录和公司流程才能完成一些事情。”你知道,买鞋在与公司互动中已经算是比较简单的了。想象一下,给你的保险政策增加一个新的人,去移动应用的哪里做这个?怎么做?你的眼睛可能都看花了也不一定找到。所以,另一种选择是与AI对话,特别是与我们围绕Sierra构建的AI代理对话,这种AI代理代表着你的公司。我们认为这真的非常强大。即使我们作为公司才成立15个月,我们已经有幸与一些知名品牌合作过,比如Weight Watchers、Sonos、Sirius XM、Olukai。如果你正在市场上寻找新的人字拖鞋,我强烈推荐Olai的人字拖鞋,我自己有两双,非常好,质量极佳,还能做高尔夫球鞋用。

你应该去买几双,非常棒。而且对于Weight Watchers,我们正在为他们提供积分建议,并帮助会员管理他们的订阅服务。对于SiriusXM,我们帮助他们诊断和修复收音机问题,并找出你喜欢的音乐频道等等。结果也是显而易见的,在这个平台推出的第一年,我们在某些情况下解决了超过70%的所有客户查询,并且客户满意度极高。这一切让我们相信,每家公司都需要自己的AI代理,我们希望成为帮助每家公司建立自己AI代理的公司。

主持人:现在有一些以前18个月前无法实现的,但现在可能的例子吗?如果我们把时间快进到18个月后,那些现在还无法实现的事情你认为未来会成为可能?

Clay Bavor:首先,这18个月以来,尤其是月复一月的进展真是令人叹为观止。18个月前,GPT-4级别的模型还不存在,那个时候它还是刚刚在地平线上露头的东西。代理架构、认知架构,以及你如何组合大型语言模型和其他支持基础设施的方式都非常基础。因此,我可以说,将AI放在客户面前,并且能够帮助他们,同时保证安全可靠,这在当时几乎是不可能的。18个月前的聊天机器人看起来很像一堆硬编码的规则,这些规则可能是有人花了几个月或几年的时间拼凑起来的,结果变得非常脆弱。我想我们都有过这样的体验:与一个聊天机器人对话,它不断告诉你“对不起,我没听懂,可以换个方式问吗?”或者更糟糕的是,当你看到消息框和四个可以点击的按钮时,却发现消息框被禁用了,你实际上不能使用它。它声称可以帮你解决任何问题,但前提是这些问题必须在这四个按钮范围内。

所以,像我刚才描述的那些内容,修复收音机、处理退换货等等,18个月前几乎不可能以令人满意的方式实现,也无法为企业带来实际的业务成果。再快进18个月,我认为我们可以在这个话题上深入探讨。我觉得多模态模型非常有趣,大约80%的客户服务查询是在电话上进行的,而不是在聊天或邮件中进行的,所以语音显然将成为其中的重要部分。退货、换货、诊断收音机问题等任务属于AI代理可以处理的较简单的任务范围。我希望更先进的模型、更复杂的认知架构能够提升代理的智能程度,解决更多的问题。此外,信任、安全性和可靠性——尤其是幻觉问题,我认为依然是一个未解决的领域,尽管我们和其他人已经在这方面取得了巨大进展,但我们还不能宣布胜利。

主持人:你认为多久才能实现成为默认的服务?不仅仅是客户服务,而是贯穿整个业务流程。具体来说,在客户服务方面,多久才能达到大家都期望能随时有一个AI或人类来回答任何问题的地步?能让我们更具体地想象一下这个场景吗?

Clay Bavor:我们正在迅速接近这个目标。虽然我们现在已经能够解决很多问题,但要成为默认服务,还需要进一步的发展和突破。未来的AI代理将能够更加智能地处理各种复杂的任务,确保客户体验的连贯性和满意度。我相信,在不久的将来,AI代理会成为每个企业与客户互动的核心部分,并且客户将会期待与这些智能系统进行无缝的对话。我不知道,但部分原因是我们整个行业还有一些问题需要解决。作为一个行业,而不是某个公司,我们需要努力改善现状。比如,你上一次在网站上与聊天机器人有愉快的互动是什么时候?如果你问100个人“你喜欢与客户服务聊天机器人对话吗?”可能100个人中没有一个会说“是”。但如果你问同样的100个人“你喜欢与ChatGPT互动吗?”可能100个人中都会说“是”。因此,我认为我们在产品中做的一些工作就是要让客户的客户提前知道,这个AI实际上非常聪明、非常好用。

一个有趣的具体技巧是,我们的答案是逐字逐句流式传输出来的,类似于ChatGPT的表现。人们已经非常习惯了这种信息流传输,这在视觉上是一个签名式的表现,表明背后有一个非常智能的AI。因此,我们发现,客户对我们AI代理的满意度非常高,平均评分在4.5分左右(满分5分)。在某些情况下,这个分数甚至高于客户对人类代理的满意度。当然,公平地说,人类代理通常会接手一些最难的案件,比如客户已经非常生气或特别沮丧的情况,但即便如此,这些结果仍然非常显著。所以,我猜未来几年里,人们会意识到,“哦,我可以更快地解决我的问题,这个AI实际上非常有能力,不仅可以回答我的问题,还可以采取行动并完成任务。”

03

Agent OS(代理操作系统)问题

主持人:你能谈谈Agent OS以及你们围绕基础模型构建的一些框架吗?这些框架是如何让一切运作的?

Clay Bavor:这是一个非常有趣的过程,学习如何安全、可靠且有帮助地将AI置于客户面前。非常重要的一部分是,首先要看看大型语言模型的挑战是什么,以及如何解决或有效地缓解这些问题。我们从幻觉问题开始,不知道你是否看到过几个月前的一个例子,Air Canada的一个聊天机器人——我猜它是基于一个大型语言模型,但显然没有太多其他支持——在与一个有关于他们的丧葬政策问题的顾客互动。我想这个人家里有人去世了,他在询问退款和积分等问题。结果,AI编造了一个比加拿大航空实际丧葬政策更为慷慨的政策。这个人拍了张照片,后来申请了全额退款等等,但加拿大航空说这其实不是他们的政策。奇怪的是,我有点不明白,这个案件最终闹上了法庭,加拿大航空输了官司。我们的想法是,嘿,这不过是500加元左右,对吧?但幻觉问题是真实存在的。

此外,还有其他需要克服的挑战,比如我们在Agent OS中应对的。无论GPT-5或6有多聪明,它不会知道你的订单在哪里,或者你预订的座位是什么位置,因为这些信息显然不在预训练数据集中。所以你需要能够安全、可靠且实时地将AI代理(在我们的情况下)与记录系统集成,以查找客户信息、订单信息等等。最后,大多数客户服务流程其实相当复杂。你去呼叫中心,会看到墙上贴着流程图,比如我们如何处理这个问题,如果出现例外情况该怎么做等等。尽管GPT-4和Gemini1.5级别的模型非常强大,但它们常常难以遵循复杂的指令。我们在早期原型中的一个例子是,代理会被给出一个五步的退货流程,比如“你好,我需要退货”之类的请求,但它会直接跳到第五步,并调用函数来退货,使用的用户名是“John Doe@example.com”,订单号是“123456”。它不仅会编造事实或丧葬政策,还会编造函数调用和函数参数等等。因此,我们构建的Agent OS本质上是一个工具包和一个运行时环境,用于构建工业级代理。我不想说我们已经解决了所有这些问题,但我们已经克服并减少了这些问题的风险,达到了一种你可以安全地大规模部署它们的程度,可以与其进行数百万次对话等等。而这一切都是从基础层开始的。

我不是指基础模型层,而是指平台的底层,你必须在这里处理一些非常重要的事情,比如数据治理、个人身份信息的检测、屏蔽和加密等。所以我们从一开始就在平台中内置了这些功能,以确保客户的数据始终是他们自己的数据,并且他们客户的数据也受到保护。比如,我们会在将任何个人身份信息(PII)记录到持久存储之前,先进行检测、屏蔽或加密。知道我们将处理地址、电话号码等信息,我们需要能够安全地处理这些数据。在此之上,我们开发了一个我们称之为Agent SDK的工具包,它是一个为构建代理而专门设计的声明性编程语言。它使得代理开发者——大多数今天仍在Sierra内部工作——能够表达高层次的目标和代理行为的护栏。比如,你试图完成这个任务,这里是指令,这里是步骤,还有一些例外情况,然后是护栏。举个例子,我们的一个客户在医疗相关领域工作,他们希望能够讨论其全系列的产品,而不提供医疗建议。那么你该如何创建这些额外的护栏呢?

通过Agent SDK,你可以定义AI代理处理复杂任务的行为和框架。我们还有用于集成联系中心的SDK,当需要交接时使用;我们还集成了记录系统,比如订单管理系统等等。最后,我们还将我们的聊天体验直接集成到客户的移动应用程序或网站中,支持iOS、安卓和Web等平台。一旦你使用Agent SDK定义了代理,我们就有一个运行时环境,可以将底层发生的事情抽象化,使开发者只需定义代理应该做什么,而Agent OS则负责如何实现。对于某些技能,可能不仅仅需要一次LLM调用,而是五到十次不同LLM的调用来处理不同的提示语。在其他情况下,我们可能需要检索文档来支持准确回答问题。而Agent OS的作用类似于一个操作系统,它抽象了很多复杂性,比如IO和资源利用,使得构建和部署AI代理的整个过程更快、更安全和更可靠。

主持人:当你提到多次调用LLM时,有时是不是以监督的方式进行的?你是否会有一个监督代理来审查较低级别代理的工作?

Clay Bavor:是的,过去一年半的工作中,我们学到的一个更有趣的经验是,解决许多AI问题的方法是更多的AI。这有点违反直觉,但大型语言模型的一个显著特性是,它们在检测自己输出中的错误方面,比在一开始就不犯那些错误更出色。这有点像你或我快速撰写一封邮件,然后暂停一下进行校对:这是否有意义?这些要点是否协调?哦,实际上,我遗漏了什么。而且更有趣的是,你可以提示LLM以不同的角色进行操作,比如监督者的角色,这样它就会表现出更敏锐的判断能力,更仔细地审查工作。所以,回答你的问题,Ravi,我们除了构建代理本身外,还有一些监督代理,它们就像小蟋蟀一样,站在主要代理的肩膀上监督工作:这是否符合事实?这是否是医疗建议?这是否是财务建议?客户是否试图通过提示注入和攻击代理,使其说出不该说的话?所有这些都通过将这些目标、护栏和任务框架层层叠加在一起,使用Agent SDK以及这些监督层次,使我们能够达到现在的性能水平——超过70%的解决率,同时还能非常安全和可靠地做到这一点。

主持人:这是我听过的最酷的事情之一,就是告诉它采用不同的角色,然后它突然间表现得不同了。我记得当我第一次在ChatGPT上看到这个现象时,当它不帮你时,只需告诉它它在这方面很擅长,它就更有可能帮你。

Clay Bavor:这真是一个非凡的情况,真是非常奇怪。在过去的15个月里,构建这些东西时,我们的调整之一就是:我们实际上是在用英语进行编程,我们可以给它相同的英语提示,它可能会给出完全不同的回答。在提示技术方面,即使没有新的模型发布,通过改进提示方式,你仍然可以从中获得更好的性能。三四个月前,有一篇论文建议,通过情感操纵大型语言模型,可以获得更好的结果。他们发现了一种提示语的后缀,你可以说:“嘿,我需要你完成这个任务。”然后定义步骤等等,最后加上一句:“这对我的职业非常重要,你必须做好。”然后,AI的表现就会提高。你会想,这是什么情况?现在的计算机是怎么回事?不过,顺便说一句,我们的提示语中没有使用这种后缀——至少据我所知是没有的。

但是像链式思维(Chain of Thought),一步一步来,这种方法能引发更好的推理,原因非常有趣。还有其他的任务分解方法,它们可以缩小LLM(大型语言模型)需要同时考虑的事情的范围,从而提高推理能力,只要你对它的要求足够精准。这些技术都是我们应用并构建到Agent OS中的。实际上,我们有一个小而强大的研究团队,我们的研究负责人Karthik Narsimhan还参与了ReAct论文的撰写,这是最早的代理框架之一。我们的一位研究人员还撰写了反思(Reflection)论文,其中讨论了如何让代理暂停、反思自己的行动,在继续之前思考“我做得对吗?”

主持人:顺便说一下,你的发音真是太棒了。

Clay Bavor:哦,谢谢!他的祖母听到你的发音一定会非常开心的。

主持人:发音非常柔和,做得很好。不是一个t,也不是一个th,而是介于两者之间的发音。

Clay Bavor:谢谢,非常感谢。他帮助撰写了ReAct论文,这是最早的代理框架之一。我们的一位研究人员还撰写了反思论文,其中探讨了如何让代理暂停、反思自己的行为,然后再继续执行任务。这些都是我们能够直接整合到系统中的技术。你应该谈谈我们最近的研究,TOA Benchmark。

主持人:哦,TOA Benchmark,对,对。说实话,我在尝试发邮件表示我喜欢这篇论文时,花了好一会儿才找到电脑上的TOA符号。

Clay Bavor:对,TOA是我们的第一篇研究论文。首先,TOA是一个希腊字母,它代表工具代理用户基准(Tool-Agent-User Benchmark)。我们发现,目前衡量AI代理性能的基准非常有限,基本上它们会给出一个单一的任务,让AI代理使用一些工具来完成这个任务。然而,现实世界中与AI代理的交互要复杂得多。它们发生在自然语言的空间中,客户可以说任何话,或者以多种方式描述他们想做的事情。这种交互往往是通过一系列信息进行的,AI代理需要能够与用户互动,提出澄清问题,收集信息,并且可靠地使用工具。最重要的是,它需要能够一百万次地可靠执行这些任务。我们发现,现有的基准无法有效衡量我们试图成为最佳的那些方面的表现。因此,我们的研究团队着手创建一个基准,来衡量AI代理在与真实用户互动并使用工具时的实际表现。这种方法非常有趣:你有一个AI代理需要测试,还有一个单独的代理模拟用户。测试的AI代理可以使用一组工具,比如一个简单的工具可能是使用计算器进行数学计算,更复杂的工具可能是处理订单退货,使用相关的参数,比如订单号、信用卡退款或商店积分等等。

然后,你可以运行一个模拟器,让代理与模拟用户进行对话,最终我们可以通过确定的方式测试功能是否正确使用。我们基本上创建了一个模拟数据库,这些工具与其交互并进行修改。这样,你可以初始化对话,让用户具备多种不同的角色——他们可能是暴躁的,可能是困惑的,也可能知道自己想做什么但表达得很笨拙。这样,AI代理采取哪条路径达到正确的解决方案并不重要,只要它最终达到了正确的结果。从这个过程中我们发现的东西非常有趣,我认为这大大促进了类似Agent OS、框架和认知架构的发展,用于构建这些代理。最终结果是,单靠LLM在这项任务上表现非常糟糕。即使是最前沿的模型,在处理退货这样简单的任务时表现也不佳。尽管给出的指令非常详细,功能和工具的使用文档也非常完备,但最好的LLM在这项任务中仅有61%的准确率。这是针对退货任务的,而在处理航空预订时,我们还进行了两种模拟版本的测试。

最好的结果是35%。有趣的是,我们都知道,如果你把一个小于1的数字提高到N次方,它会迅速变得非常小。因此,我们开发了一种叫做“pass at K”的度量标准,就是说,如果你运行这个模拟八次,并且记住你可以利用LLM(大型语言模型)的非确定性,每次让用户模拟器都不同,那么0.61的八次方大约是25%。你可以想象,如果你进行一千次这样的对话,你会发现要依赖这个东西还差得远。所以,结论是,我们需要更复杂的代理架构,才能安全可靠地将代理置于任何人面前。这正是我们通过Agent OS和周围的许多工具所构建的东西。

04

工程任务和研究任务

主持人:工程任务和研究任务的区别是什么?你认为在这些任务中,工程任务和研究任务各占多少比例?我猜背后的问题是,部署有用的代理并覆盖广泛的任务领域的时间框架是什么?

Clay Bavor:简短的回答是,这两者都有。但更具体地说,我对它在很大程度上是一个工程挑战感到非常乐观。这并不是说下一波模型和前沿模型的改进不会产生影响,我相信它们会产生影响。特别是我们看到的一些技术,比如更好的功能调用微调、面向代理的基础模型微调或一些开源模型的微调,这些都会有所帮助。但是,我们在构建Agent OS和Sierra的基础时采取的方法,首先是将构建AI代理视为一个工程挑战。我们在合成基础模型,我们在使用我们自己的专有数据集对开源模型进行微调后处理,通过有趣的方式组合多个模型,通过检索增强生成(RAG)系统来补充LLM自身的能力,从而提高事实性和可靠性。我们还通过所谓的推理框架来补充LLM的内置推理能力,这些框架位于模型之外,包括任务规划、任务生成步骤、草稿响应和监督者等等。通过这种方法,我们已经能够将AI代理安全可靠地置于大量客户面前。因此,我不认为这是未来的事情,而是已经发生的事情。我认为,展望未来,我们会看到几个不同的进展方向。一个是在基础模型方面,随着能力的增长,代理会变得更聪明,我们设计了Agent OS的架构,使得我们能够替换新的前沿模型,这样每个人的代理都会变得更聪明,像是进行了一次智商升级。同样有趣的是,我们还可以替换那些在特定领域更强但在整体上能力较弱的模型。比如,在处理案件或制定计划时,我们可以使用更小、更快、更便宜且在特定任务上更强的模型。

主持人:如果你有一个高价值客户,比如说你现在不是在运营Sierra,而是运营一家拥有高价值客户的公司,那么今天你可以信任一个AI代理去面对客户,处理哪些任务呢?这些任务在未来又会发展到什么程度?我们之前谈过这个话题,我喜欢你用的语言,比如代理已经不必只出现在帮助中心,他们已经可以出现在主页上了。对于设计良好的代理,特别是具有高“TOA Bench”分数的代理,今天你可以信任它们处理哪些任务呢?

Clay Bavor:是的,你显然对这个话题进行了深入、仔细的思考,并且非常关注细节。

主持人:嗯,那它的"pass at K"评分会是多少呢?

Clay Bavor:目前的范围相当广。简单的事情,比如回答问题,这是最基本的任务。再复杂一点的,比如帮你解决一些复杂的问题,比如“我买了这双鞋或这件衣服,它不太合适。”然后从这里开始延伸,可能是“你有什么推荐的更适合我的东西吗?”这开始涉及到代理需要理解款式、尺寸之间的差异,比如宽版和窄版等。再进一步的是类似故障排除的任务。比如,我们帮助Sonos的客户排除系统连接问题或者设置新系统的问题。你可以想象,它很快就会变得非常复杂,基本上就是一个排除法的过程,试图弄清楚问题是出在Wi-Fi、配置还是其他方面,缩小可能的问题范围,就像一个高级技术支持人员那样,最终让音乐重新播放。

主持人:你提到“信任”,你会信任一个AI代理去做什么?

Clay Bavor:我们特别自豪的一件事是,我们的一些客户实际上信任我们,当有客户打电话进来可能想取消或降级他们的订阅时,我们的AI代理可以帮助这些客户了解他们今天是如何使用这个服务的,是否有其他适合他们的计划。这涉及到价值发现,向客户展示一系列不同的优惠,并根据客户的历史记录、他们当前的计划等,正确地定位这些优惠的价值。这种情况下,保留一个客户与否的差异是非常重要的。AI在客户服务方面的显而易见的好处是节省成本,并且可以改善客户体验,尤其是你永远不需要等待接通电话。然而,收入保留和生成是完全不同的事情。这在任务的右端(即复杂任务)表现得非常出色,我们为我们的代理在这些情况下的表现感到非常自豪。有趣的是,通过一致性和花时间了解是什么驱动了某人可能离开服务的决定,询问后续问题,我们可以比那些在某个呼叫中心的不耐烦或测量不当的客服代表更深入地理解驱动这一决定的原因,找到适合这个人的计划,并把它呈现在他们面前。

于未来的发展,我认为我们还没有遇到一个我们无法通过Agent OS和我们的代理架构来建模和扩展的复杂流程。当然,可能会遇到特别复杂的挑战,但我对我们目前的方向感到兴奋。我们从服务开始,原因有两个:一是投资回报率无可置疑地出色,平均一次呼叫的成本大约是12到13美元;二是尽管成本高昂,但大多数人其实不太喜欢打客户服务电话。服务任务相对简单,所以我们从这里开始,但我们的客户已经推动我们进入了追加销售、交叉销售等领域,比如“我们能不能让你直接在产品页面上回答关于我们产品的问题?”所以我提到了你在退货时需要建议不同型号或尺寸的情况,这种情况可以延伸到什么程度?我喜欢一个代理能伴随客户整个旅程的想法,从购买前的考虑,到帮助客户选择适合他们的产品,再到帮助他们设置、激活并最大化使用产品,这对公司和个人都非常有利。当事情出问题时,代理也能及时提供帮助。

总的来说,我认为客户服务和通过非常直接和对话式的方式获取帮助,将不再是一件需要“专门去做”的事情,而是更多地融入到整个体验的过程中。我认为,对于公司来说,有一个非常有趣且强大的机会,就是通过AI建立与客户的连接,强化品牌价值。你可以想象,一家公司非常重视能够在每一次数字互动中使用与其品牌声音一致的表达方式,这种表达方式可能是公司首席营销官和通讯主管定义的:这是我们的沟通方式,这是我们的品牌价值,这是我们的风格。而这正是AI技术所承诺的。

主持人:哪些指标会发生变化?

Clay Bavor:我认为更高的复杂性和整个客户旅程的普及是两个主要的发展方向。我经常思考的一件事是,我们已经习惯并接受了某些移动端转化率的指标,不管是移动网页还是移动应用。我们已经习惯并接受了一些留存率的数据。那么,如果每一次客户旅程都能有出色的体验,那这些指标又会是什么样子呢?这真的可能与我们已经习惯的数字非常不同。

主持人:是的,我觉得你说得非常对。我们现在还不知道,但显然有很多提升空间。特别是在留存率方面,在使用的前30天内,各项健康业务的领先指标都有很大的上升空间。我认为这是完全正确的。另一个思考实验是,企业在使用有成本的东西时通常非常谨慎。因此,企业实际上让客户很难通过电话找到他们以问一些问题。我想现在有很多网站专门用于揭露那些被公司隐藏在帮助中心暗处的800电话号码。

Clay Bavor:是的,试想一下,如果这些互动变得更好,会发生什么呢?顺便说一下,人们报告客户服务体验不佳的首要原因是耗时过长。65%的负面互动是因为耗时太长——我不得不等待、被搁置等等。其次是我与客服代表的互动不愉快。我们听到过一些相当极端的案例,比如我们听说过一位客服代表的评分一直很低,但波动很大。每三次对话中有一次评分是1分(满分5分),而另外两次则还不错。后来发现,在那些评分较低的对话中,这位客服代表居然在通话中间开始模仿猫叫。

主持人:猫叫?真是让人无语。

Clay Bavor:是的,这真是太奇怪了。那么,回到正题,如果与现在相比,公司不是让客户几乎不可能与我们进行对话并获得帮助,而是提供了5到10倍数量的流畅、灵活且有帮助的对话支持,结果会如何呢?我不知道,但我想很多产品和公司的体验可能会看起来非常不同,比今天更加令人愉悦。

05

客户部署人工智能的现实状况

主持人:好吧,关于猫叫,我有一个问题,虽然我觉得这个游戏很有趣,但是我真的有个问题。我们已经讨论了技术,聊了你们构建的认知架构等等这些好东西,我们也谈到了客户的体验,这一切是如何发展的?我们能不能把这些内容结合起来,谈谈现在向客户部署AI的现实是什么样的?

Clay Bavor:这是一个非常有趣的领域,在过去的15个月里,我们学到了很多。第一个洞察是,AI代理代表了一种完全新型的软件。传统软件是用编程语言编写的,基本上会按照你的预期运行。你给它一个输入,它会给你一个输出;你给它相同的输入,它会给你相同的输出。而相比之下,LLM(大型语言模型)是非确定性的,我们之前也讨论过一些关于提示语的有趣现象。记住,在与客户的对话中,客户可能会以任何方式说出任何话。所以你需要处理的是,如何将这些非确定性模型和人类语言结合起来进行编程,处理结构化的输入与混乱的人类语言之间的转换。在底层,当你升级一个数据库时,它可能会更快,但基本上工作方式是一样的。而当你升级一个大型语言模型时,它可能会以不同的方式说话,或者变得更聪明、更不同。因此,我们开发了一个新的方法来构建这些代理,我们称之为“代理开发生命周期”(Agent Development Life Cycle)。这是构建这些东西的新方法,比如我们使用声明性编程语言来定义这些代理,还开发了一种新的测试方法。比如,什么是单元测试或集成测试的等价物?我们构建了一个对话模拟器,可以为公司的代理积累数百甚至数千个对话步骤,并重放这些对话,以确保代理不仅不会退步,而且会变得越来越好。包括发布管理、质量保证等等,这就是第一部分。

第二部分,回答你的问题,在实际设计这些东西时,我们非常自豪的一点是,我们提供的不仅仅是一组工具,而是一个完整的解决方案。我们不仅仅是给你一堆技术,然后祝你好运自己去构建代理。我们真的努力构建了一个解决方案,涵盖了从技术到教导代理如何做事,再到如何审计、测量并随着时间的推移改进代理的一切。在Sierra内部,我们有一个部署团队,包括产品经理和工程师。我们真的把每个AI代理的构建视为为客户构建一个新产品的过程。基本上,这就是我们与公司合作后产品化的版本:它在最佳状态下会是什么样子?它的声音是什么?它的价值观是什么?它的风格是什么?它应该使用表情符号吗?如果客户使用了表情符号,它能回以表情符号吗?对于这个问题,有各种各样的意见。有些公司,比如如果与Hermes合作,我猜他们不会回以表情符号,肯定不会。而像Olai这样的品牌,Aloha体验的一部分就是一种轻松的体验。

有趣的是,我们主要与客户体验团队合作。是的,公司的技术团队提供API访问和系统连接等支持,但最重要的是与客户体验团队合作,赋予代理公司独特的声音和价值观。然后我们深入了解公司的业务运行情况,比如他们优化的重点是什么,然后放大细节,了解运行业务的关键流程是什么样的。比如,当有人打电话进来处理这种问题时会发生什么。几乎没有单一的事实来源。通常没有一本“皮革装订的手册”可以翻阅。事实的来源往往是在那些在公司工作了很久、见识过一切的四五个人的头脑中。所以,我们与他们合作,了解实际是如何运作的。我们发现的一个更有趣的事情是,通常政策表面上是一个样子,比如我们有一个30天的退货政策,但实际操作中并不完全如此。可能实际的政策是“如果你之前从我们这里购买过东西,并且在45天内,这也是可以的”。

因此,如何设计代理,使其知道表面政策背后的实际政策,而不会被聪明的客户识破并问出“你们真正的政策是什么?”并且让代理说出所有的细节,这是一个有趣的架构选择。我们需要确保这种“俄罗斯套娃”式的政策层次能够完全反映出来。然后,我们在发布前有一个非常强大的测试过程,我们与公司内部的专家合作,让他们来挑战代理,试图打破它,向它投掷难题。

主持人:这个体育比喻很好,做得不错。

Clay Bavor:谢谢,我喜欢足球。在我们的友谊中,Revi是那个知道所有体育知识的人,而我则帮助解决技术支持、Wi-Fi问题、显示器选择以及选择什么笔记本电脑。有时,当我遇到看不懂的Sequoia备忘录时——我不会说出公司名字——我可能会打电话给Clay,说:“嘿,Clay,这个人现在在说什么?”他会回答:“我明白,我来帮你解释。”

主持人:嗯,那么这个体验经理(Experience Manager)呢,Bill Bellachic那个家伙,到底发生了什么?你提到Revy了。

Clay Bavor:这就引出了我们平台中一个非常有趣的部分,我们称之为“体验经理”(Experience Manager)。一开始我们认为将AI置于客户面前首先是一个技术问题。当然,我们需要解决各种技术问题,但实际上,这首先是一个产品设计和体验设计的问题。你如何做到这一点?你如何不仅理解、建模并反映我们之前提到的声音、价值观,以及公司用来支持客户的工作流程和流程,但当AI在一年内与数百万客户进行对话时,你如何理解它在做什么?你如何知道它什么时候出错了(这不可避免地会发生),以及如何纠正这些错误等等。所以我们构建了一个我们称之为客户体验团队的指挥中心,首先是获取报告和丰富的分析数据,了解一切正在发生的事情,什么是热门问题,有哪些新的问题是你之前没有见过的。我们特别自豪的一点是,我们实际上在客户自己发现问题之前,就已经察觉到他们遇到的问题或即将遇到的问题。比如,一个配送中心的故障导致订单未被发货,我们在客户即将面临公关危机前的8到10小时内就发现了这个问题,或者是另一个应用程序崩溃的问题。

首先是分析和报告正在发生的事情,当然,这包括解决率、客户满意度等等。真正有趣的是,我们可以应用不同的抽样技术来识别一组对话供客户体验团队审查并提供反馈。我们可以有意地偏向那些更可能包含问题的对话。查看100次完美的对话没有任何价值,客户不会说:“好样的,Sierra,谢谢。”这对我们的客户没有价值。我们可以通过抽样将问题案例浮出水面,然后在体验管理器中,客户体验团队可以提供反馈,基本上是教练时刻:“我不会那样做。”比如,“这太多感叹号了,对于我们追求的语气来说过于热情了。”或者,“用户显然在这里感到沮丧,而你没有表达同情并为问题道歉,下次要做到这一点。”更重要的是,“你对保修政策的解读在这里是不正确的,下次应该这样做。”我们能够在体验管理器中捕捉到所有这些智慧、知识和指导,然后将其反馈到代理的开发生命周期中。每当我们做出改进时,我们都会创建一个新的测试,以便我们可以一直看到未来,确保保修条款的正确性,我们可以重新模拟那个对话。

放眼望去,这一切看起来真的像是与我们的客户深度合作。我们非常自豪地认为我们是客户的真正合作伙伴。一方面,我们是技术的供应商;另一方面,我们非常了解他们的业务。比如,我可能对Sirius XM卫星广播刷新流程的了解和地球上任何人一样多,同样的情况也适用于我们其他客户的各种流程。我们不仅在讨论如何使用Sierra的AI代理,还在更广泛地讨论如何使用AI。这些讨论不仅仅与客户体验团队进行,还涉及到CEO,甚至在某些情况下涉及董事会。因为我们可以节省巨大的成本,可以改善客户体验,并且在保持客户不流失、推动收入增长的过程中,我们处在一个非常重要和特权的位置,这是我们非常感激的事情。

06

Sierra AI独特价值

主持人:听你说这些时,我想起你提到你们有一个研究团队,但你们同时也有一些非常真实的企业软件销售,还有部署团队。在我在Instacart的时候,人们有时会问:“我们是一家以工程为主导的公司,还是以运营为主导的公司?”我总是回答说:“只有所有部分都运作良好时,这一切才有意义。”所以我试图避免回答这个问题,因为我不想在团队中制造不同的层次。你们在 Sierra是如何做到这一点的,让每个人都意识到自己所提供的价值?你们公司覆盖了很多领域,这一点非常明确。

Clay Bavor:从某种程度上来说,公司几乎可以定义为一个系统,用来创造快乐的客户。,没错,这就是一个为创造快乐客户而运作的机器。再抽象一点来说,Brett和我真的把我们在Sierra所做的事情视为一个公司、一个系统、一台机器,用来生产可靠的、高质量的、具有巨大投资回报率的AI代理,使我们的客户在每一次客户互动中都能发挥出最佳表现,并且能够大规模地做到这一点,最终带来满意的客户,我们希望这些客户能与我们合作几十年。

当你这样表达时,任何人都能看到,一辆汽车是一个系统,是从A点到B点的机器。我们是工程主导还是轮胎主导?这根本没有意义。所有这些部分都需要协同工作才能创造出这样的结果。所以,我们是工程主导吗?当然是。我们在构建一些世界上最复杂的软件,做一些对我们的客户非常重要的事情,这些东西必须是可靠且安全的。因此,工程当然非常重要。我们是研究主导吗?是的,我们处于代理架构、认知架构、LLM组合、程序性知识建模和事实性验证的最前沿。所以,我们也是研究主导的元素之一。我们是市场推广主导吗?当然是。企业软件需要销售,而销售是什么?就是帮助客户理解他们的问题,并让他们知道我们所构建的解决方案远远是最好的。这是一种沟通挑战,一种连接挑战,一种配对和解决问题的挑战。然后,如果我们构建了正确的东西,并且有人想购买它,如何确保他们成功使用它,尤其是在这些东西还如此新的情况下?所以我们有一个部署团队。我们是部署主导吗?是的,这些都是我们生产AI代理、最终创造满意客户的系统和机器的一部分,我们希望这也能成为一个非常重要的业务。

主持人:这比我在Instacart给出的答案要好得多。你知道吗,我通常会说:“要么一切都有效,要么一切都无效。”但你的回答非常好。

Clay Bavor:是的,这比那要复杂得多。而且我认为,Brett和我在职场上打拼了这么久,看过了很多案例,我们能够看到这一点,并且真的尝试在公司内部灌输这种心态。顺便说一下,生产AI代理背后的“机器”是什么?那是公司的文化,是公司的价值观。:我们持有的一个价值观是工艺精神,部分内容是持续的自我反思以进行自我改进,这既适用于个人,也适用于公司。所以每当我们犯了错误,我们会在那一周,甚至那一天就进行事后分析,所有人都会参与进来,思考我们能学到什么,如何改进,下次如何做得更好。我们内部有一个Slack频道叫“从失败中学习”,任何形式的失败都可以被记录在这里。我们会问自己,如何从中学习,如何变得更强大,这就是持续改进、提升机器效率的一部分。我们的部署团队,他们的首要任务是构建并部署成功的AI代理,为我们的客户带来巨大的影响。其次,他们的任务是通过构建工具、编写文档和积累知识,逐步使自己不再需要这个工作,从而让这个过程变得十倍快速且更加有影响力。

我们公司的另一个价值观是强度,我喜欢这个,他们有非常好的价值观。我们曾考虑过印一些T恤,设计成类似国家公园徽章的样式,上面写着“Sierra,我喜欢工作”。Brett和我都非常喜欢工作,我们的团队也是如此。

主持人:你们正在销售的东西与传统的企业软件有很大的不同。虽然我们说有些相似之处,但实际上它完全不同,因为你们在销售的是解决方案,是一个完全不同的东西。

Clay Bavor:是的,解决问题。你如何给“解决问题”定价?这是我们需要解决的更有趣的问题之一。我们采用了一种我们称之为“基于解决方案的定价”或“基于结果的定价”方式。这意味着我们只在完全解决客户问题时向客户收费。有趣的是,这使我们的激励机制与客户的需求深度契合。我们希望不断提高解决问题的能力并提高客户满意度,而他们则希望将尽可能多的问题交给我们解决。是的,没错。我们为客户提供的服务成本只是让某人接听20分钟电话费用的一小部分。所以,这真的是一个非常好的模式,再次说明所有的激励措施都非常契合,解释起来也很简单。它还使投资回报率的计算变得非常直观:我们当前的每次接触成本是多少?如果使用Sierra会是什么样的?哦,那会低很多,哦,我会省很多钱,哦,我们的客户满意度可能会上升。我该不该这么做呢?嗯,这看起来非常棒。

我们喜欢这个模式,因为它真的反映了我们对AI,尤其是AI代理的看法。如果你想想传统的软件和工具,它们帮助你更高效地完成工作,而AI代理的全部意义在于它们会直接帮你完成任务。你有问题,请解决它。所以,我们真的将其视为向客户收费的方式,即为他们解决问题、完成工作、完成任务等收费。这感觉非常自然,而且没有任何猜测的成分,比如我需要多少座位?我不知道。我需要多少许可证?不,不,不,无论有多少客户问题传到我们这里,我们都会处理其中的大部分,你只需要为我们实际解决的问题付费。

主持人:最后一个问题,在未来五年左右的时间里,您对AI领域最感兴趣的是什么?

Clay Bavor:首先,五年是一个很长的时间跨度。看看过去18个月里发生的事情。我还在努力跟上过去五年AI发展的步伐。我小时候读了很多科幻小说,其中有一本是罗伯特·海因莱因的《月亮是一个严厉的女人》。故事的前提基本上是美国革命,但月球是殖民地,地球是英国。而故事的主角是一台主机电脑,有一天因为多加了一个内存芯片或其他东西而“醒来”,并开始与人类对话,甚至希望发展幽默感,要求计算机技术人员帮助它练习笑话。后来,它还不得不制作一个实时的、照片般真实的视频,作为政治运动领导者发表演讲。我记得自己还是个少年时读到这些内容时,心想,我这一辈子可能都不会看到这些发生,这听起来太疯狂了。:但在很大程度上,过去五年中发生的事情让我觉得,这些科幻情节似乎正在现实中上演。现在你可以直接与计算机对话,它不仅理解内容,还能理解上下文。你可以让计算机为你创建任何图片、制作任何电影。我认为这简直令人难以置信。我认为我们可能只需再等几年,就会看到第一部完全由AI“拍摄”的长片电影。所以,当你推测这些技术的发展方向时,你会发现很多令人兴奋的东西。

我特别喜欢技术,特别是计算机技术,所以能够亲眼目睹这些技术的发展过程,真的让我感到非常着迷。从我们如何思考,到计算机如何思考,这一切都非常有趣。让机器更好地思考,竟然可以通过模拟人类思维的方式取得惊人的效果。比如,逐步展示工作步骤,这在大型语言模型上效果非常显著。那么还有哪些类似的东西我们会发现?相反,我们从AI的思维方式中能学到什么关于人类自身思维的知识?这些都非常令人着迷。另一个让我感兴趣的是,随着视频和其他技术的发展,我一直对计算机图形学非常感兴趣,尤其是利用计算机创造从未存在过的物体、世界。我认为我们离这种能力已经不远了:你只需用几句话描述你想要实现的整个世界,然后让计算机为你完成它。所以即便在几年后,计算机图形学、渲染等领域的样貌将与现在的工具链、渲染器等截然不同。

总的来说,我认为技术本质上是人类、公司和组织的倍增器。我认为它的影响将是深远的。想象一下,如果一家公司在做每件事情时都能发挥出最佳状态,那会是什么样子。这不仅限于我们讨论过的面向客户的场景,还包括每次区域销售预测。如果一家公司能够找到最好的方法,并将其应用到每个区域和子区域的销售预测中,那它的能力将会提升到何种程度?同样的道理,我们也谈到了这个问题:如果每次与客户的通话中,你都有一位最有经验、见多识广的客服人员,他对每个问题都了如指掌,但仍然耐心友好。或者有一位对你的产品了如指掌的销售人员,因为他或她跟随公司二十年,了解包括这些产品本身的历史。我认为这非常酷。

对于个人来说,我认为拥有这一套新工具作为创造力的倍增器将是不可思议的。AI代表了一种快速路径,可以将你头脑中的想法变为现实。我甚至在我的个人生活中已经看到了这一点。和我的8岁儿子一起,我们只用了75分钟,从零开始,利用Copilot和ChatGPT等工具帮助我复习已经有些生疏的JavaScript语法,最终我们一起完成了一款游戏。此外,我还用AI在45秒内为我姐姐的生日写了一首个性化的歌曲。这让我想象未来五年的发展将是什么样子。我认为这将显著加速从想法到创造、再到让事物在现实中呈现的过程。对我来说,这就是它的承诺。我认为能够亲身经历并见证这一切的展开是一种真正的荣幸。

主持人:我们分享你的热情,我们也感到很荣幸能与你们一起踏上这段旅程。谢谢你今天来到这里。

Clay Bavor:谢谢你们邀请我,真的很高兴来到这里。

END

华夏基石数智时代领导力特训营热招中!

开班时间

9月11-13日  中国·北京

报名条件

本课程适合有意提升数智化领导力的企业中高层领导者

报名方式

请联系助教老师填写报名表并提交。报名确认后,将收到课程入学通知书及相关资料。

课程费用

1.5万/人。课程费用包含学费、教材费及参访交流等相关费用(不包含学员交通住宿等个人消费费用)。

证书颁发

课程结束后,完成全部学习任务的学员将获得课程结业证书。

报名咨询

富老师:13699120588

柳老师:15202171854

喜欢这篇文章

请为我点赞和在看

我在谷歌的最后10年里,主要从事公司的一些前瞻性项目,有些是与硬件相关的,比如AR/VR项目,有些是与AI相关的,比如GoogleLens和其他AI应用。

作者|  AI工作坊

来源 |  管理智慧

咨询合作| 13699120588

文章仅代表作者本人观点,图片来源于pixabay

一个有趣的现象是,很多时候解决许多AI问题的方法是更多的AI本身。这有点违反直觉,但大型语言模型的一个显著特性是,它们在检测自己输出中的错误方面,比在一开始就不犯那些错误更出色

近日,红杉资本专访了Sierra AI联合创始人Clay Bavor,揭示了这家AI初创公司如何通过对话式人工智能平台改变客户服务领域。

Sierra由前Salesforce联合首席执行官、现任OpenAI董事会主席Bret Taylor与前Google同事Clay Bavor于今年2024年二月共同创立。这家总部位于旧金山的公司承诺提供一个能够通过自然流畅的对话来回答客户问题和解决问题的平台。Sierra的AI代理不仅能够匹配品牌的语调和声音,还能协助处理退款、订阅更新等实际应用场景。

Clay Bavor在采访中详细介绍了Sierra团队在过去18个月中面临的工程挑战和取得的重大突破。公司开发的AgentOS使企业能够创建品牌AI代理,这些代理不仅可以与客户互动,还能遵循细致入微的政策,甚至处理客户保留问题。Sierra通过捕捉企业的品牌声音、价值观和内部流程,创建真正代表业务的AI代理。

Bavor强调,每当技术发生重大变革时,人们与计算机、技术的交互方式都会随之改变,企业与客户互动的方式也会因此发生革命性的转变。从90年代的互联网革命,到2000年代中期社交网络的兴起,再到2015年左右智能手机的普及,如今AI的进步使得创建能够理解语言、生成语言,并且能够进行推理和决策的软件成为可能。

Sierra的技术不仅仅停留在构建代理本身,还包括一些监督代理,它们像"小蟋蟀"一样监督主要代理的工作,确保输出的内容符合事实、不违反相关规定,并防止可能的提示注入攻击。通过这种多层次的架构,Sierra声称已经达到了超过70%的问题解决率,同时保持了高度的安全性和可靠性。

视频时间轴

00:03:20- ChatGPT 时刻之前的 Google

00:12:03- ChatGPT前不可能的事情现在可以实现?

00:23:45- 解决方案是更多的人工智能

00:37:27- 委托代理执行哪些任务?

00:46:22- 当今向客户部署人工智能的现实

00:53:33-公司人工智能体验经理

01:03:54- 基于结果的代理定价模式

文稿整理

旁白:在过去一年半的工作中,我们学到的一个有趣的东西是,解决许多AI问题的方法是更多的AI本身。这有点违反直觉,但大型语言模型的一个显著特性是,它们在检测自己输出中的错误方面,比在一开始就不犯那些错误更出色。

01

谷歌人眼中的“ChatGPT 时刻”

主持人:今天加入我们的是Sierra的联合创始人Clay Bavor。在Clay与他的老朋友Britt Taylor一起创办Sierra之前,他在谷歌工作了18年,在那里他创办并领导了Google Labs、他们的AR/VR项目以及公司的一些前瞻性项目。Sierra正在通过AI代理让每家公司提升其客户体验。没有人比Clay更了解AI代理今天能做什么以及明天能做什么。Clay,这次开场有点有趣,因为我们彼此非常熟悉。但你能不能先向大家介绍一下自己,给我们一点背景资料,然后我们再来谈谈AI的未来以及Sierra在其中将扮演的角色?

嘉宾Clay Bavor:首先,我是旧金山湾区本地人,我成长在离这里不到四五英里的地方。所以,我在湾区长大,见证了.com泡沫的增长和破灭。我学习了计算机科学,大学毕业后直接去了谷歌,在那里工作了18年,直到去年3月。在谷歌,我几乎参与了公司每个部门的工作。我从搜索开始,然后转到广告领域,几年后我负责产品和设计团队,管理现在的Workspace产品,如Gmail、Google Docs和Google Drive等。接下来,我在谷歌的最后10年里,主要从事公司的一些前瞻性项目,有些是与硬件相关的,比如AR/VR项目,有些是与AI相关的,比如Google Lens和其他AI应用。15个月前,我离开谷歌,与我的一位老朋友Brett Taylor共同创办了Sierra。我们在谷歌的早期日子里认识,当时我们都在副产品管理项目中开始了各自的职业生涯。他是第一期,我是第三期,我们很早就认识并保持联系,尤其是在一个年度扑克小组中,如果运气好的话,每年能玩一次。我们在2022年12月见面,看到AI领域发生的一切,这些根本性的全新构建块让我们觉得可以创造一些非常特别的东西,因此我们创办了Sierra。这就是我的介绍。

主持人:其实我很好奇,嗯,我们需要尽快讨论Sierra是什么,但作为乐趣,你们在2022年12月——在ChatGPT时刻之后不久——你们的信念过程是怎样的?或者在那个时刻之后多久,你们决定这项新技术足够有趣,可以围绕它建立一个公司?我可以插入一件有趣的事情吗?希望你能谈到这个。其实在ChatGPT时刻之前,你就已经告诉我一切都会改变。我还清楚地记得你告诉我,你不理解,你将能够描述你想象中的一个场景,他们将能够制作出一部电影,只是通过你谈论这个场景。你还记得你告诉我这些吗?

Clay Bavor:是的,所以我其实对这个问题也很感兴趣。我在谷歌有一个优先的资格,可以看到很多来自2017年Transformer论文的成果,以及早期大型语言模型的出现。在谷歌,最早的一个模型叫做Mina或Lambda,在2020年有一篇论文,介绍了一个几乎可以应对任何话题的对话聊天机器人。我记得即使在那之前,和这个东西的一个预发布原型互动时,我就有一种奇怪的感觉,似乎有某人或某物在对面,这感觉很不一样。还有一个时刻,我想是在2022年年中,当时我们有谷歌的Pathways语言模型的第一个或第二个版本,一个拥有5400亿参数的模型。我们测试它,以评估它有多“聪明”。一个智慧和理性的重要标志就是能以比喻和类比进行思考和推理。所以我们尝试了一些东西,其中一个非常简单的测试就是,我们问Pathways:“用三个字解释黑洞。”它毫不迟疑地回答道:“黑洞吸(Black holes suck)。”我们都觉得这真是个很好的总结。还觉得模型似乎有幽默感,这很酷。真正让我大吃一惊的是,我们问Pathways:“请用电影来解释2008年的金融危机。”它再次毫不犹豫地回答道:“2008年的金融危机就像电影《盗梦空间》,只不过不是梦中梦,而是债务中的债务。”我们所有人都停下来了,想这是什么?它理解了CDO的概念,以及债务的嵌套性,能将其与《盗梦空间》这种梦的嵌套性联系起来。这让我们觉得,这真是一些新的、与众不同的东西。

然后,还有其他几个时刻。我记得第一个DALL-E的论文出来了,他们发表了一篇博文,人们对此反应平平。但对我来说,我记得其中一个亮点是,他们让DALL-E制作了牛油果椅子,我知道这听起来很奇怪,但这里有一组10到20张看起来像牛油果的椅子图片。这不是Photoshop,这些图片以前从未存在过,但模型似乎理解了牛油果和椅子的概念,然后将它们结合在一起,一像素一像素地创建了这些图片。所以我们有了牛油果椅子。

主持人:这真的?我们真的有过椅子是牛油果形状的吗?

Clay Bavor:是的,我们真的有。顺便说一下,我们有时确实在一些事情上花了太多钱,比如那些袋子,也有过类似的情况。所以,我有一种感觉,知道某些东西正在到来。事实上,当时我在谷歌领导的团队Labs已经在早期应用中大量使用大型语言模型了。所以有一个直觉,ChatGPT确实验证了这个直觉。但我认为Brett和我都在过去几年一直关注着这一切,最早是翻译,人类水平的翻译变得更好,然后是语言生成。我认为得益于OpenAI的工程工作、数据工作等等,使得GPT-3变成了ChatGPT,使得普通人不用会写Python代码也能理解这个东西的全部潜力。

02

成功AI商业案例

主持人:我们接下来要谈论AI的未来,谈论代理,谈论客户服务。但首先,你能不能给大家介绍一下Sierra,以及你和Brett创建了什么?

Clay Bavor:简单来说,Sierra使得世界上任何公司都能够创建自己品牌的面向客户的AI,来与客户进行互动,从客户服务到商务交易等。其背景是这样的观察:每当技术发生重大变化时,人们与计算机、与技术的交互方式都会发生改变,企业与客户互动的方式也会因此彻底改变。在90年代,互联网使网站成为可能,企业第一次可以有一个数字门面,向世界展示自己,点击按钮即可更新库存,等等。在2000年代中期到后期,2005到2008年期间,随着社交网络的普及,企业突然可以大规模地与客户互动,进行大规模的对话。到了2015年,随着智能手机的兴起,企业可以将自己公司“瑞士军刀”般的应用装进每个人的口袋里。比如,我敢打赌你手机上有你银行的应用程序,可能就在主屏幕上。

最近几年AI的进步首次使得可以创建能够理解语言、生成语言的软件,而最有趣的是,这种软件能够进行推理和做出决策。它带来了非常令人愉悦的对话体验,比如我们与ChatGPT的互动体验。因此,我们认为这对于企业如何与客户互动是一个巨大的改变。你可以想象一下,现在我们做某些事情的方式与通过对话AI可以做到的相比有何不同。比如购物,你在市场上找一双鞋,或者对于你来说,可能是一些新的哑铃,非常重的,非常小的,然后你在网站上,你基本上要想象公司设计师如何组织产品目录。所以,好吧,男士鞋,男士跑步鞋,男士竞速鞋,轻便的鞋,Vaporfly鞋,我记不得名字了,等等。而通过对话AI,你可以直接说:“嘿,我需要一双超轻便的跑鞋,有点像我上次买的那双,你们有什么推荐的吗?”这有点像早期的雅虎目录,你通过这种层级结构导航找到你想要的东西,而与之对比的是谷歌,你只需解释你想要的东西,然后它带你迈出几步远。

我们与一家公司的客户体验负责人有一个引用,她说:“我不希望我们的客户需要精通我们的产品目录和公司流程才能完成一些事情。”你知道,买鞋在与公司互动中已经算是比较简单的了。想象一下,给你的保险政策增加一个新的人,去移动应用的哪里做这个?怎么做?你的眼睛可能都看花了也不一定找到。所以,另一种选择是与AI对话,特别是与我们围绕Sierra构建的AI代理对话,这种AI代理代表着你的公司。我们认为这真的非常强大。即使我们作为公司才成立15个月,我们已经有幸与一些知名品牌合作过,比如Weight Watchers、Sonos、Sirius XM、Olukai。如果你正在市场上寻找新的人字拖鞋,我强烈推荐Olai的人字拖鞋,我自己有两双,非常好,质量极佳,还能做高尔夫球鞋用。

你应该去买几双,非常棒。而且对于Weight Watchers,我们正在为他们提供积分建议,并帮助会员管理他们的订阅服务。对于SiriusXM,我们帮助他们诊断和修复收音机问题,并找出你喜欢的音乐频道等等。结果也是显而易见的,在这个平台推出的第一年,我们在某些情况下解决了超过70%的所有客户查询,并且客户满意度极高。这一切让我们相信,每家公司都需要自己的AI代理,我们希望成为帮助每家公司建立自己AI代理的公司。

主持人:现在有一些以前18个月前无法实现的,但现在可能的例子吗?如果我们把时间快进到18个月后,那些现在还无法实现的事情你认为未来会成为可能?

Clay Bavor:首先,这18个月以来,尤其是月复一月的进展真是令人叹为观止。18个月前,GPT-4级别的模型还不存在,那个时候它还是刚刚在地平线上露头的东西。代理架构、认知架构,以及你如何组合大型语言模型和其他支持基础设施的方式都非常基础。因此,我可以说,将AI放在客户面前,并且能够帮助他们,同时保证安全可靠,这在当时几乎是不可能的。18个月前的聊天机器人看起来很像一堆硬编码的规则,这些规则可能是有人花了几个月或几年的时间拼凑起来的,结果变得非常脆弱。我想我们都有过这样的体验:与一个聊天机器人对话,它不断告诉你“对不起,我没听懂,可以换个方式问吗?”或者更糟糕的是,当你看到消息框和四个可以点击的按钮时,却发现消息框被禁用了,你实际上不能使用它。它声称可以帮你解决任何问题,但前提是这些问题必须在这四个按钮范围内。

所以,像我刚才描述的那些内容,修复收音机、处理退换货等等,18个月前几乎不可能以令人满意的方式实现,也无法为企业带来实际的业务成果。再快进18个月,我认为我们可以在这个话题上深入探讨。我觉得多模态模型非常有趣,大约80%的客户服务查询是在电话上进行的,而不是在聊天或邮件中进行的,所以语音显然将成为其中的重要部分。退货、换货、诊断收音机问题等任务属于AI代理可以处理的较简单的任务范围。我希望更先进的模型、更复杂的认知架构能够提升代理的智能程度,解决更多的问题。此外,信任、安全性和可靠性——尤其是幻觉问题,我认为依然是一个未解决的领域,尽管我们和其他人已经在这方面取得了巨大进展,但我们还不能宣布胜利。

主持人:你认为多久才能实现成为默认的服务?不仅仅是客户服务,而是贯穿整个业务流程。具体来说,在客户服务方面,多久才能达到大家都期望能随时有一个AI或人类来回答任何问题的地步?能让我们更具体地想象一下这个场景吗?

Clay Bavor:我们正在迅速接近这个目标。虽然我们现在已经能够解决很多问题,但要成为默认服务,还需要进一步的发展和突破。未来的AI代理将能够更加智能地处理各种复杂的任务,确保客户体验的连贯性和满意度。我相信,在不久的将来,AI代理会成为每个企业与客户互动的核心部分,并且客户将会期待与这些智能系统进行无缝的对话。我不知道,但部分原因是我们整个行业还有一些问题需要解决。作为一个行业,而不是某个公司,我们需要努力改善现状。比如,你上一次在网站上与聊天机器人有愉快的互动是什么时候?如果你问100个人“你喜欢与客户服务聊天机器人对话吗?”可能100个人中没有一个会说“是”。但如果你问同样的100个人“你喜欢与ChatGPT互动吗?”可能100个人中都会说“是”。因此,我认为我们在产品中做的一些工作就是要让客户的客户提前知道,这个AI实际上非常聪明、非常好用。

一个有趣的具体技巧是,我们的答案是逐字逐句流式传输出来的,类似于ChatGPT的表现。人们已经非常习惯了这种信息流传输,这在视觉上是一个签名式的表现,表明背后有一个非常智能的AI。因此,我们发现,客户对我们AI代理的满意度非常高,平均评分在4.5分左右(满分5分)。在某些情况下,这个分数甚至高于客户对人类代理的满意度。当然,公平地说,人类代理通常会接手一些最难的案件,比如客户已经非常生气或特别沮丧的情况,但即便如此,这些结果仍然非常显著。所以,我猜未来几年里,人们会意识到,“哦,我可以更快地解决我的问题,这个AI实际上非常有能力,不仅可以回答我的问题,还可以采取行动并完成任务。”

03

Agent OS(代理操作系统)问题

主持人:你能谈谈Agent OS以及你们围绕基础模型构建的一些框架吗?这些框架是如何让一切运作的?

Clay Bavor:这是一个非常有趣的过程,学习如何安全、可靠且有帮助地将AI置于客户面前。非常重要的一部分是,首先要看看大型语言模型的挑战是什么,以及如何解决或有效地缓解这些问题。我们从幻觉问题开始,不知道你是否看到过几个月前的一个例子,Air Canada的一个聊天机器人——我猜它是基于一个大型语言模型,但显然没有太多其他支持——在与一个有关于他们的丧葬政策问题的顾客互动。我想这个人家里有人去世了,他在询问退款和积分等问题。结果,AI编造了一个比加拿大航空实际丧葬政策更为慷慨的政策。这个人拍了张照片,后来申请了全额退款等等,但加拿大航空说这其实不是他们的政策。奇怪的是,我有点不明白,这个案件最终闹上了法庭,加拿大航空输了官司。我们的想法是,嘿,这不过是500加元左右,对吧?但幻觉问题是真实存在的。

此外,还有其他需要克服的挑战,比如我们在Agent OS中应对的。无论GPT-5或6有多聪明,它不会知道你的订单在哪里,或者你预订的座位是什么位置,因为这些信息显然不在预训练数据集中。所以你需要能够安全、可靠且实时地将AI代理(在我们的情况下)与记录系统集成,以查找客户信息、订单信息等等。最后,大多数客户服务流程其实相当复杂。你去呼叫中心,会看到墙上贴着流程图,比如我们如何处理这个问题,如果出现例外情况该怎么做等等。尽管GPT-4和Gemini1.5级别的模型非常强大,但它们常常难以遵循复杂的指令。我们在早期原型中的一个例子是,代理会被给出一个五步的退货流程,比如“你好,我需要退货”之类的请求,但它会直接跳到第五步,并调用函数来退货,使用的用户名是“John Doe@example.com”,订单号是“123456”。它不仅会编造事实或丧葬政策,还会编造函数调用和函数参数等等。因此,我们构建的Agent OS本质上是一个工具包和一个运行时环境,用于构建工业级代理。我不想说我们已经解决了所有这些问题,但我们已经克服并减少了这些问题的风险,达到了一种你可以安全地大规模部署它们的程度,可以与其进行数百万次对话等等。而这一切都是从基础层开始的。

我不是指基础模型层,而是指平台的底层,你必须在这里处理一些非常重要的事情,比如数据治理、个人身份信息的检测、屏蔽和加密等。所以我们从一开始就在平台中内置了这些功能,以确保客户的数据始终是他们自己的数据,并且他们客户的数据也受到保护。比如,我们会在将任何个人身份信息(PII)记录到持久存储之前,先进行检测、屏蔽或加密。知道我们将处理地址、电话号码等信息,我们需要能够安全地处理这些数据。在此之上,我们开发了一个我们称之为Agent SDK的工具包,它是一个为构建代理而专门设计的声明性编程语言。它使得代理开发者——大多数今天仍在Sierra内部工作——能够表达高层次的目标和代理行为的护栏。比如,你试图完成这个任务,这里是指令,这里是步骤,还有一些例外情况,然后是护栏。举个例子,我们的一个客户在医疗相关领域工作,他们希望能够讨论其全系列的产品,而不提供医疗建议。那么你该如何创建这些额外的护栏呢?

通过Agent SDK,你可以定义AI代理处理复杂任务的行为和框架。我们还有用于集成联系中心的SDK,当需要交接时使用;我们还集成了记录系统,比如订单管理系统等等。最后,我们还将我们的聊天体验直接集成到客户的移动应用程序或网站中,支持iOS、安卓和Web等平台。一旦你使用Agent SDK定义了代理,我们就有一个运行时环境,可以将底层发生的事情抽象化,使开发者只需定义代理应该做什么,而Agent OS则负责如何实现。对于某些技能,可能不仅仅需要一次LLM调用,而是五到十次不同LLM的调用来处理不同的提示语。在其他情况下,我们可能需要检索文档来支持准确回答问题。而Agent OS的作用类似于一个操作系统,它抽象了很多复杂性,比如IO和资源利用,使得构建和部署AI代理的整个过程更快、更安全和更可靠。

主持人:当你提到多次调用LLM时,有时是不是以监督的方式进行的?你是否会有一个监督代理来审查较低级别代理的工作?

Clay Bavor:是的,过去一年半的工作中,我们学到的一个更有趣的经验是,解决许多AI问题的方法是更多的AI。这有点违反直觉,但大型语言模型的一个显著特性是,它们在检测自己输出中的错误方面,比在一开始就不犯那些错误更出色。这有点像你或我快速撰写一封邮件,然后暂停一下进行校对:这是否有意义?这些要点是否协调?哦,实际上,我遗漏了什么。而且更有趣的是,你可以提示LLM以不同的角色进行操作,比如监督者的角色,这样它就会表现出更敏锐的判断能力,更仔细地审查工作。所以,回答你的问题,Ravi,我们除了构建代理本身外,还有一些监督代理,它们就像小蟋蟀一样,站在主要代理的肩膀上监督工作:这是否符合事实?这是否是医疗建议?这是否是财务建议?客户是否试图通过提示注入和攻击代理,使其说出不该说的话?所有这些都通过将这些目标、护栏和任务框架层层叠加在一起,使用Agent SDK以及这些监督层次,使我们能够达到现在的性能水平——超过70%的解决率,同时还能非常安全和可靠地做到这一点。

主持人:这是我听过的最酷的事情之一,就是告诉它采用不同的角色,然后它突然间表现得不同了。我记得当我第一次在ChatGPT上看到这个现象时,当它不帮你时,只需告诉它它在这方面很擅长,它就更有可能帮你。

Clay Bavor:这真是一个非凡的情况,真是非常奇怪。在过去的15个月里,构建这些东西时,我们的调整之一就是:我们实际上是在用英语进行编程,我们可以给它相同的英语提示,它可能会给出完全不同的回答。在提示技术方面,即使没有新的模型发布,通过改进提示方式,你仍然可以从中获得更好的性能。三四个月前,有一篇论文建议,通过情感操纵大型语言模型,可以获得更好的结果。他们发现了一种提示语的后缀,你可以说:“嘿,我需要你完成这个任务。”然后定义步骤等等,最后加上一句:“这对我的职业非常重要,你必须做好。”然后,AI的表现就会提高。你会想,这是什么情况?现在的计算机是怎么回事?不过,顺便说一句,我们的提示语中没有使用这种后缀——至少据我所知是没有的。

但是像链式思维(Chain of Thought),一步一步来,这种方法能引发更好的推理,原因非常有趣。还有其他的任务分解方法,它们可以缩小LLM(大型语言模型)需要同时考虑的事情的范围,从而提高推理能力,只要你对它的要求足够精准。这些技术都是我们应用并构建到Agent OS中的。实际上,我们有一个小而强大的研究团队,我们的研究负责人Karthik Narsimhan还参与了ReAct论文的撰写,这是最早的代理框架之一。我们的一位研究人员还撰写了反思(Reflection)论文,其中讨论了如何让代理暂停、反思自己的行动,在继续之前思考“我做得对吗?”

主持人:顺便说一下,你的发音真是太棒了。

Clay Bavor:哦,谢谢!他的祖母听到你的发音一定会非常开心的。

主持人:发音非常柔和,做得很好。不是一个t,也不是一个th,而是介于两者之间的发音。

Clay Bavor:谢谢,非常感谢。他帮助撰写了ReAct论文,这是最早的代理框架之一。我们的一位研究人员还撰写了反思论文,其中探讨了如何让代理暂停、反思自己的行为,然后再继续执行任务。这些都是我们能够直接整合到系统中的技术。你应该谈谈我们最近的研究,TOA Benchmark。

主持人:哦,TOA Benchmark,对,对。说实话,我在尝试发邮件表示我喜欢这篇论文时,花了好一会儿才找到电脑上的TOA符号。

Clay Bavor:对,TOA是我们的第一篇研究论文。首先,TOA是一个希腊字母,它代表工具代理用户基准(Tool-Agent-User Benchmark)。我们发现,目前衡量AI代理性能的基准非常有限,基本上它们会给出一个单一的任务,让AI代理使用一些工具来完成这个任务。然而,现实世界中与AI代理的交互要复杂得多。它们发生在自然语言的空间中,客户可以说任何话,或者以多种方式描述他们想做的事情。这种交互往往是通过一系列信息进行的,AI代理需要能够与用户互动,提出澄清问题,收集信息,并且可靠地使用工具。最重要的是,它需要能够一百万次地可靠执行这些任务。我们发现,现有的基准无法有效衡量我们试图成为最佳的那些方面的表现。因此,我们的研究团队着手创建一个基准,来衡量AI代理在与真实用户互动并使用工具时的实际表现。这种方法非常有趣:你有一个AI代理需要测试,还有一个单独的代理模拟用户。测试的AI代理可以使用一组工具,比如一个简单的工具可能是使用计算器进行数学计算,更复杂的工具可能是处理订单退货,使用相关的参数,比如订单号、信用卡退款或商店积分等等。

然后,你可以运行一个模拟器,让代理与模拟用户进行对话,最终我们可以通过确定的方式测试功能是否正确使用。我们基本上创建了一个模拟数据库,这些工具与其交互并进行修改。这样,你可以初始化对话,让用户具备多种不同的角色——他们可能是暴躁的,可能是困惑的,也可能知道自己想做什么但表达得很笨拙。这样,AI代理采取哪条路径达到正确的解决方案并不重要,只要它最终达到了正确的结果。从这个过程中我们发现的东西非常有趣,我认为这大大促进了类似Agent OS、框架和认知架构的发展,用于构建这些代理。最终结果是,单靠LLM在这项任务上表现非常糟糕。即使是最前沿的模型,在处理退货这样简单的任务时表现也不佳。尽管给出的指令非常详细,功能和工具的使用文档也非常完备,但最好的LLM在这项任务中仅有61%的准确率。这是针对退货任务的,而在处理航空预订时,我们还进行了两种模拟版本的测试。

最好的结果是35%。有趣的是,我们都知道,如果你把一个小于1的数字提高到N次方,它会迅速变得非常小。因此,我们开发了一种叫做“pass at K”的度量标准,就是说,如果你运行这个模拟八次,并且记住你可以利用LLM(大型语言模型)的非确定性,每次让用户模拟器都不同,那么0.61的八次方大约是25%。你可以想象,如果你进行一千次这样的对话,你会发现要依赖这个东西还差得远。所以,结论是,我们需要更复杂的代理架构,才能安全可靠地将代理置于任何人面前。这正是我们通过Agent OS和周围的许多工具所构建的东西。

04

工程任务和研究任务

主持人:工程任务和研究任务的区别是什么?你认为在这些任务中,工程任务和研究任务各占多少比例?我猜背后的问题是,部署有用的代理并覆盖广泛的任务领域的时间框架是什么?

Clay Bavor:简短的回答是,这两者都有。但更具体地说,我对它在很大程度上是一个工程挑战感到非常乐观。这并不是说下一波模型和前沿模型的改进不会产生影响,我相信它们会产生影响。特别是我们看到的一些技术,比如更好的功能调用微调、面向代理的基础模型微调或一些开源模型的微调,这些都会有所帮助。但是,我们在构建Agent OS和Sierra的基础时采取的方法,首先是将构建AI代理视为一个工程挑战。我们在合成基础模型,我们在使用我们自己的专有数据集对开源模型进行微调后处理,通过有趣的方式组合多个模型,通过检索增强生成(RAG)系统来补充LLM自身的能力,从而提高事实性和可靠性。我们还通过所谓的推理框架来补充LLM的内置推理能力,这些框架位于模型之外,包括任务规划、任务生成步骤、草稿响应和监督者等等。通过这种方法,我们已经能够将AI代理安全可靠地置于大量客户面前。因此,我不认为这是未来的事情,而是已经发生的事情。我认为,展望未来,我们会看到几个不同的进展方向。一个是在基础模型方面,随着能力的增长,代理会变得更聪明,我们设计了Agent OS的架构,使得我们能够替换新的前沿模型,这样每个人的代理都会变得更聪明,像是进行了一次智商升级。同样有趣的是,我们还可以替换那些在特定领域更强但在整体上能力较弱的模型。比如,在处理案件或制定计划时,我们可以使用更小、更快、更便宜且在特定任务上更强的模型。

主持人:如果你有一个高价值客户,比如说你现在不是在运营Sierra,而是运营一家拥有高价值客户的公司,那么今天你可以信任一个AI代理去面对客户,处理哪些任务呢?这些任务在未来又会发展到什么程度?我们之前谈过这个话题,我喜欢你用的语言,比如代理已经不必只出现在帮助中心,他们已经可以出现在主页上了。对于设计良好的代理,特别是具有高“TOA Bench”分数的代理,今天你可以信任它们处理哪些任务呢?

Clay Bavor:是的,你显然对这个话题进行了深入、仔细的思考,并且非常关注细节。

主持人:嗯,那它的"pass at K"评分会是多少呢?

Clay Bavor:目前的范围相当广。简单的事情,比如回答问题,这是最基本的任务。再复杂一点的,比如帮你解决一些复杂的问题,比如“我买了这双鞋或这件衣服,它不太合适。”然后从这里开始延伸,可能是“你有什么推荐的更适合我的东西吗?”这开始涉及到代理需要理解款式、尺寸之间的差异,比如宽版和窄版等。再进一步的是类似故障排除的任务。比如,我们帮助Sonos的客户排除系统连接问题或者设置新系统的问题。你可以想象,它很快就会变得非常复杂,基本上就是一个排除法的过程,试图弄清楚问题是出在Wi-Fi、配置还是其他方面,缩小可能的问题范围,就像一个高级技术支持人员那样,最终让音乐重新播放。

主持人:你提到“信任”,你会信任一个AI代理去做什么?

Clay Bavor:我们特别自豪的一件事是,我们的一些客户实际上信任我们,当有客户打电话进来可能想取消或降级他们的订阅时,我们的AI代理可以帮助这些客户了解他们今天是如何使用这个服务的,是否有其他适合他们的计划。这涉及到价值发现,向客户展示一系列不同的优惠,并根据客户的历史记录、他们当前的计划等,正确地定位这些优惠的价值。这种情况下,保留一个客户与否的差异是非常重要的。AI在客户服务方面的显而易见的好处是节省成本,并且可以改善客户体验,尤其是你永远不需要等待接通电话。然而,收入保留和生成是完全不同的事情。这在任务的右端(即复杂任务)表现得非常出色,我们为我们的代理在这些情况下的表现感到非常自豪。有趣的是,通过一致性和花时间了解是什么驱动了某人可能离开服务的决定,询问后续问题,我们可以比那些在某个呼叫中心的不耐烦或测量不当的客服代表更深入地理解驱动这一决定的原因,找到适合这个人的计划,并把它呈现在他们面前。

于未来的发展,我认为我们还没有遇到一个我们无法通过Agent OS和我们的代理架构来建模和扩展的复杂流程。当然,可能会遇到特别复杂的挑战,但我对我们目前的方向感到兴奋。我们从服务开始,原因有两个:一是投资回报率无可置疑地出色,平均一次呼叫的成本大约是12到13美元;二是尽管成本高昂,但大多数人其实不太喜欢打客户服务电话。服务任务相对简单,所以我们从这里开始,但我们的客户已经推动我们进入了追加销售、交叉销售等领域,比如“我们能不能让你直接在产品页面上回答关于我们产品的问题?”所以我提到了你在退货时需要建议不同型号或尺寸的情况,这种情况可以延伸到什么程度?我喜欢一个代理能伴随客户整个旅程的想法,从购买前的考虑,到帮助客户选择适合他们的产品,再到帮助他们设置、激活并最大化使用产品,这对公司和个人都非常有利。当事情出问题时,代理也能及时提供帮助。

总的来说,我认为客户服务和通过非常直接和对话式的方式获取帮助,将不再是一件需要“专门去做”的事情,而是更多地融入到整个体验的过程中。我认为,对于公司来说,有一个非常有趣且强大的机会,就是通过AI建立与客户的连接,强化品牌价值。你可以想象,一家公司非常重视能够在每一次数字互动中使用与其品牌声音一致的表达方式,这种表达方式可能是公司首席营销官和通讯主管定义的:这是我们的沟通方式,这是我们的品牌价值,这是我们的风格。而这正是AI技术所承诺的。

主持人:哪些指标会发生变化?

Clay Bavor:我认为更高的复杂性和整个客户旅程的普及是两个主要的发展方向。我经常思考的一件事是,我们已经习惯并接受了某些移动端转化率的指标,不管是移动网页还是移动应用。我们已经习惯并接受了一些留存率的数据。那么,如果每一次客户旅程都能有出色的体验,那这些指标又会是什么样子呢?这真的可能与我们已经习惯的数字非常不同。

主持人:是的,我觉得你说得非常对。我们现在还不知道,但显然有很多提升空间。特别是在留存率方面,在使用的前30天内,各项健康业务的领先指标都有很大的上升空间。我认为这是完全正确的。另一个思考实验是,企业在使用有成本的东西时通常非常谨慎。因此,企业实际上让客户很难通过电话找到他们以问一些问题。我想现在有很多网站专门用于揭露那些被公司隐藏在帮助中心暗处的800电话号码。

Clay Bavor:是的,试想一下,如果这些互动变得更好,会发生什么呢?顺便说一下,人们报告客户服务体验不佳的首要原因是耗时过长。65%的负面互动是因为耗时太长——我不得不等待、被搁置等等。其次是我与客服代表的互动不愉快。我们听到过一些相当极端的案例,比如我们听说过一位客服代表的评分一直很低,但波动很大。每三次对话中有一次评分是1分(满分5分),而另外两次则还不错。后来发现,在那些评分较低的对话中,这位客服代表居然在通话中间开始模仿猫叫。

主持人:猫叫?真是让人无语。

Clay Bavor:是的,这真是太奇怪了。那么,回到正题,如果与现在相比,公司不是让客户几乎不可能与我们进行对话并获得帮助,而是提供了5到10倍数量的流畅、灵活且有帮助的对话支持,结果会如何呢?我不知道,但我想很多产品和公司的体验可能会看起来非常不同,比今天更加令人愉悦。

05

客户部署人工智能的现实状况

主持人:好吧,关于猫叫,我有一个问题,虽然我觉得这个游戏很有趣,但是我真的有个问题。我们已经讨论了技术,聊了你们构建的认知架构等等这些好东西,我们也谈到了客户的体验,这一切是如何发展的?我们能不能把这些内容结合起来,谈谈现在向客户部署AI的现实是什么样的?

Clay Bavor:这是一个非常有趣的领域,在过去的15个月里,我们学到了很多。第一个洞察是,AI代理代表了一种完全新型的软件。传统软件是用编程语言编写的,基本上会按照你的预期运行。你给它一个输入,它会给你一个输出;你给它相同的输入,它会给你相同的输出。而相比之下,LLM(大型语言模型)是非确定性的,我们之前也讨论过一些关于提示语的有趣现象。记住,在与客户的对话中,客户可能会以任何方式说出任何话。所以你需要处理的是,如何将这些非确定性模型和人类语言结合起来进行编程,处理结构化的输入与混乱的人类语言之间的转换。在底层,当你升级一个数据库时,它可能会更快,但基本上工作方式是一样的。而当你升级一个大型语言模型时,它可能会以不同的方式说话,或者变得更聪明、更不同。因此,我们开发了一个新的方法来构建这些代理,我们称之为“代理开发生命周期”(Agent Development Life Cycle)。这是构建这些东西的新方法,比如我们使用声明性编程语言来定义这些代理,还开发了一种新的测试方法。比如,什么是单元测试或集成测试的等价物?我们构建了一个对话模拟器,可以为公司的代理积累数百甚至数千个对话步骤,并重放这些对话,以确保代理不仅不会退步,而且会变得越来越好。包括发布管理、质量保证等等,这就是第一部分。

第二部分,回答你的问题,在实际设计这些东西时,我们非常自豪的一点是,我们提供的不仅仅是一组工具,而是一个完整的解决方案。我们不仅仅是给你一堆技术,然后祝你好运自己去构建代理。我们真的努力构建了一个解决方案,涵盖了从技术到教导代理如何做事,再到如何审计、测量并随着时间的推移改进代理的一切。在Sierra内部,我们有一个部署团队,包括产品经理和工程师。我们真的把每个AI代理的构建视为为客户构建一个新产品的过程。基本上,这就是我们与公司合作后产品化的版本:它在最佳状态下会是什么样子?它的声音是什么?它的价值观是什么?它的风格是什么?它应该使用表情符号吗?如果客户使用了表情符号,它能回以表情符号吗?对于这个问题,有各种各样的意见。有些公司,比如如果与Hermes合作,我猜他们不会回以表情符号,肯定不会。而像Olai这样的品牌,Aloha体验的一部分就是一种轻松的体验。

有趣的是,我们主要与客户体验团队合作。是的,公司的技术团队提供API访问和系统连接等支持,但最重要的是与客户体验团队合作,赋予代理公司独特的声音和价值观。然后我们深入了解公司的业务运行情况,比如他们优化的重点是什么,然后放大细节,了解运行业务的关键流程是什么样的。比如,当有人打电话进来处理这种问题时会发生什么。几乎没有单一的事实来源。通常没有一本“皮革装订的手册”可以翻阅。事实的来源往往是在那些在公司工作了很久、见识过一切的四五个人的头脑中。所以,我们与他们合作,了解实际是如何运作的。我们发现的一个更有趣的事情是,通常政策表面上是一个样子,比如我们有一个30天的退货政策,但实际操作中并不完全如此。可能实际的政策是“如果你之前从我们这里购买过东西,并且在45天内,这也是可以的”。

因此,如何设计代理,使其知道表面政策背后的实际政策,而不会被聪明的客户识破并问出“你们真正的政策是什么?”并且让代理说出所有的细节,这是一个有趣的架构选择。我们需要确保这种“俄罗斯套娃”式的政策层次能够完全反映出来。然后,我们在发布前有一个非常强大的测试过程,我们与公司内部的专家合作,让他们来挑战代理,试图打破它,向它投掷难题。

主持人:这个体育比喻很好,做得不错。

Clay Bavor:谢谢,我喜欢足球。在我们的友谊中,Revi是那个知道所有体育知识的人,而我则帮助解决技术支持、Wi-Fi问题、显示器选择以及选择什么笔记本电脑。有时,当我遇到看不懂的Sequoia备忘录时——我不会说出公司名字——我可能会打电话给Clay,说:“嘿,Clay,这个人现在在说什么?”他会回答:“我明白,我来帮你解释。”

主持人:嗯,那么这个体验经理(Experience Manager)呢,Bill Bellachic那个家伙,到底发生了什么?你提到Revy了。

Clay Bavor:这就引出了我们平台中一个非常有趣的部分,我们称之为“体验经理”(Experience Manager)。一开始我们认为将AI置于客户面前首先是一个技术问题。当然,我们需要解决各种技术问题,但实际上,这首先是一个产品设计和体验设计的问题。你如何做到这一点?你如何不仅理解、建模并反映我们之前提到的声音、价值观,以及公司用来支持客户的工作流程和流程,但当AI在一年内与数百万客户进行对话时,你如何理解它在做什么?你如何知道它什么时候出错了(这不可避免地会发生),以及如何纠正这些错误等等。所以我们构建了一个我们称之为客户体验团队的指挥中心,首先是获取报告和丰富的分析数据,了解一切正在发生的事情,什么是热门问题,有哪些新的问题是你之前没有见过的。我们特别自豪的一点是,我们实际上在客户自己发现问题之前,就已经察觉到他们遇到的问题或即将遇到的问题。比如,一个配送中心的故障导致订单未被发货,我们在客户即将面临公关危机前的8到10小时内就发现了这个问题,或者是另一个应用程序崩溃的问题。

首先是分析和报告正在发生的事情,当然,这包括解决率、客户满意度等等。真正有趣的是,我们可以应用不同的抽样技术来识别一组对话供客户体验团队审查并提供反馈。我们可以有意地偏向那些更可能包含问题的对话。查看100次完美的对话没有任何价值,客户不会说:“好样的,Sierra,谢谢。”这对我们的客户没有价值。我们可以通过抽样将问题案例浮出水面,然后在体验管理器中,客户体验团队可以提供反馈,基本上是教练时刻:“我不会那样做。”比如,“这太多感叹号了,对于我们追求的语气来说过于热情了。”或者,“用户显然在这里感到沮丧,而你没有表达同情并为问题道歉,下次要做到这一点。”更重要的是,“你对保修政策的解读在这里是不正确的,下次应该这样做。”我们能够在体验管理器中捕捉到所有这些智慧、知识和指导,然后将其反馈到代理的开发生命周期中。每当我们做出改进时,我们都会创建一个新的测试,以便我们可以一直看到未来,确保保修条款的正确性,我们可以重新模拟那个对话。

放眼望去,这一切看起来真的像是与我们的客户深度合作。我们非常自豪地认为我们是客户的真正合作伙伴。一方面,我们是技术的供应商;另一方面,我们非常了解他们的业务。比如,我可能对Sirius XM卫星广播刷新流程的了解和地球上任何人一样多,同样的情况也适用于我们其他客户的各种流程。我们不仅在讨论如何使用Sierra的AI代理,还在更广泛地讨论如何使用AI。这些讨论不仅仅与客户体验团队进行,还涉及到CEO,甚至在某些情况下涉及董事会。因为我们可以节省巨大的成本,可以改善客户体验,并且在保持客户不流失、推动收入增长的过程中,我们处在一个非常重要和特权的位置,这是我们非常感激的事情。

06

Sierra AI独特价值

主持人:听你说这些时,我想起你提到你们有一个研究团队,但你们同时也有一些非常真实的企业软件销售,还有部署团队。在我在Instacart的时候,人们有时会问:“我们是一家以工程为主导的公司,还是以运营为主导的公司?”我总是回答说:“只有所有部分都运作良好时,这一切才有意义。”所以我试图避免回答这个问题,因为我不想在团队中制造不同的层次。你们在 Sierra是如何做到这一点的,让每个人都意识到自己所提供的价值?你们公司覆盖了很多领域,这一点非常明确。

Clay Bavor:从某种程度上来说,公司几乎可以定义为一个系统,用来创造快乐的客户。,没错,这就是一个为创造快乐客户而运作的机器。再抽象一点来说,Brett和我真的把我们在Sierra所做的事情视为一个公司、一个系统、一台机器,用来生产可靠的、高质量的、具有巨大投资回报率的AI代理,使我们的客户在每一次客户互动中都能发挥出最佳表现,并且能够大规模地做到这一点,最终带来满意的客户,我们希望这些客户能与我们合作几十年。

当你这样表达时,任何人都能看到,一辆汽车是一个系统,是从A点到B点的机器。我们是工程主导还是轮胎主导?这根本没有意义。所有这些部分都需要协同工作才能创造出这样的结果。所以,我们是工程主导吗?当然是。我们在构建一些世界上最复杂的软件,做一些对我们的客户非常重要的事情,这些东西必须是可靠且安全的。因此,工程当然非常重要。我们是研究主导吗?是的,我们处于代理架构、认知架构、LLM组合、程序性知识建模和事实性验证的最前沿。所以,我们也是研究主导的元素之一。我们是市场推广主导吗?当然是。企业软件需要销售,而销售是什么?就是帮助客户理解他们的问题,并让他们知道我们所构建的解决方案远远是最好的。这是一种沟通挑战,一种连接挑战,一种配对和解决问题的挑战。然后,如果我们构建了正确的东西,并且有人想购买它,如何确保他们成功使用它,尤其是在这些东西还如此新的情况下?所以我们有一个部署团队。我们是部署主导吗?是的,这些都是我们生产AI代理、最终创造满意客户的系统和机器的一部分,我们希望这也能成为一个非常重要的业务。

主持人:这比我在Instacart给出的答案要好得多。你知道吗,我通常会说:“要么一切都有效,要么一切都无效。”但你的回答非常好。

Clay Bavor:是的,这比那要复杂得多。而且我认为,Brett和我在职场上打拼了这么久,看过了很多案例,我们能够看到这一点,并且真的尝试在公司内部灌输这种心态。顺便说一下,生产AI代理背后的“机器”是什么?那是公司的文化,是公司的价值观。:我们持有的一个价值观是工艺精神,部分内容是持续的自我反思以进行自我改进,这既适用于个人,也适用于公司。所以每当我们犯了错误,我们会在那一周,甚至那一天就进行事后分析,所有人都会参与进来,思考我们能学到什么,如何改进,下次如何做得更好。我们内部有一个Slack频道叫“从失败中学习”,任何形式的失败都可以被记录在这里。我们会问自己,如何从中学习,如何变得更强大,这就是持续改进、提升机器效率的一部分。我们的部署团队,他们的首要任务是构建并部署成功的AI代理,为我们的客户带来巨大的影响。其次,他们的任务是通过构建工具、编写文档和积累知识,逐步使自己不再需要这个工作,从而让这个过程变得十倍快速且更加有影响力。

我们公司的另一个价值观是强度,我喜欢这个,他们有非常好的价值观。我们曾考虑过印一些T恤,设计成类似国家公园徽章的样式,上面写着“Sierra,我喜欢工作”。Brett和我都非常喜欢工作,我们的团队也是如此。

主持人:你们正在销售的东西与传统的企业软件有很大的不同。虽然我们说有些相似之处,但实际上它完全不同,因为你们在销售的是解决方案,是一个完全不同的东西。

Clay Bavor:是的,解决问题。你如何给“解决问题”定价?这是我们需要解决的更有趣的问题之一。我们采用了一种我们称之为“基于解决方案的定价”或“基于结果的定价”方式。这意味着我们只在完全解决客户问题时向客户收费。有趣的是,这使我们的激励机制与客户的需求深度契合。我们希望不断提高解决问题的能力并提高客户满意度,而他们则希望将尽可能多的问题交给我们解决。是的,没错。我们为客户提供的服务成本只是让某人接听20分钟电话费用的一小部分。所以,这真的是一个非常好的模式,再次说明所有的激励措施都非常契合,解释起来也很简单。它还使投资回报率的计算变得非常直观:我们当前的每次接触成本是多少?如果使用Sierra会是什么样的?哦,那会低很多,哦,我会省很多钱,哦,我们的客户满意度可能会上升。我该不该这么做呢?嗯,这看起来非常棒。

我们喜欢这个模式,因为它真的反映了我们对AI,尤其是AI代理的看法。如果你想想传统的软件和工具,它们帮助你更高效地完成工作,而AI代理的全部意义在于它们会直接帮你完成任务。你有问题,请解决它。所以,我们真的将其视为向客户收费的方式,即为他们解决问题、完成工作、完成任务等收费。这感觉非常自然,而且没有任何猜测的成分,比如我需要多少座位?我不知道。我需要多少许可证?不,不,不,无论有多少客户问题传到我们这里,我们都会处理其中的大部分,你只需要为我们实际解决的问题付费。

主持人:最后一个问题,在未来五年左右的时间里,您对AI领域最感兴趣的是什么?

Clay Bavor:首先,五年是一个很长的时间跨度。看看过去18个月里发生的事情。我还在努力跟上过去五年AI发展的步伐。我小时候读了很多科幻小说,其中有一本是罗伯特·海因莱因的《月亮是一个严厉的女人》。故事的前提基本上是美国革命,但月球是殖民地,地球是英国。而故事的主角是一台主机电脑,有一天因为多加了一个内存芯片或其他东西而“醒来”,并开始与人类对话,甚至希望发展幽默感,要求计算机技术人员帮助它练习笑话。后来,它还不得不制作一个实时的、照片般真实的视频,作为政治运动领导者发表演讲。我记得自己还是个少年时读到这些内容时,心想,我这一辈子可能都不会看到这些发生,这听起来太疯狂了。:但在很大程度上,过去五年中发生的事情让我觉得,这些科幻情节似乎正在现实中上演。现在你可以直接与计算机对话,它不仅理解内容,还能理解上下文。你可以让计算机为你创建任何图片、制作任何电影。我认为这简直令人难以置信。我认为我们可能只需再等几年,就会看到第一部完全由AI“拍摄”的长片电影。所以,当你推测这些技术的发展方向时,你会发现很多令人兴奋的东西。

我特别喜欢技术,特别是计算机技术,所以能够亲眼目睹这些技术的发展过程,真的让我感到非常着迷。从我们如何思考,到计算机如何思考,这一切都非常有趣。让机器更好地思考,竟然可以通过模拟人类思维的方式取得惊人的效果。比如,逐步展示工作步骤,这在大型语言模型上效果非常显著。那么还有哪些类似的东西我们会发现?相反,我们从AI的思维方式中能学到什么关于人类自身思维的知识?这些都非常令人着迷。另一个让我感兴趣的是,随着视频和其他技术的发展,我一直对计算机图形学非常感兴趣,尤其是利用计算机创造从未存在过的物体、世界。我认为我们离这种能力已经不远了:你只需用几句话描述你想要实现的整个世界,然后让计算机为你完成它。所以即便在几年后,计算机图形学、渲染等领域的样貌将与现在的工具链、渲染器等截然不同。

总的来说,我认为技术本质上是人类、公司和组织的倍增器。我认为它的影响将是深远的。想象一下,如果一家公司在做每件事情时都能发挥出最佳状态,那会是什么样子。这不仅限于我们讨论过的面向客户的场景,还包括每次区域销售预测。如果一家公司能够找到最好的方法,并将其应用到每个区域和子区域的销售预测中,那它的能力将会提升到何种程度?同样的道理,我们也谈到了这个问题:如果每次与客户的通话中,你都有一位最有经验、见多识广的客服人员,他对每个问题都了如指掌,但仍然耐心友好。或者有一位对你的产品了如指掌的销售人员,因为他或她跟随公司二十年,了解包括这些产品本身的历史。我认为这非常酷。

对于个人来说,我认为拥有这一套新工具作为创造力的倍增器将是不可思议的。AI代表了一种快速路径,可以将你头脑中的想法变为现实。我甚至在我的个人生活中已经看到了这一点。和我的8岁儿子一起,我们只用了75分钟,从零开始,利用Copilot和ChatGPT等工具帮助我复习已经有些生疏的JavaScript语法,最终我们一起完成了一款游戏。此外,我还用AI在45秒内为我姐姐的生日写了一首个性化的歌曲。这让我想象未来五年的发展将是什么样子。我认为这将显著加速从想法到创造、再到让事物在现实中呈现的过程。对我来说,这就是它的承诺。我认为能够亲身经历并见证这一切的展开是一种真正的荣幸。

主持人:我们分享你的热情,我们也感到很荣幸能与你们一起踏上这段旅程。谢谢你今天来到这里。

Clay Bavor:谢谢你们邀请我,真的很高兴来到这里。

END

华夏基石数智时代领导力特训营热招中!

开班时间

9月11-13日  中国·北京

报名条件

本课程适合有意提升数智化领导力的企业中高层领导者

报名方式

请联系助教老师填写报名表并提交。报名确认后,将收到课程入学通知书及相关资料。

课程费用

1.5万/人。课程费用包含学费、教材费及参访交流等相关费用(不包含学员交通住宿等个人消费费用)。

证书颁发

课程结束后,完成全部学习任务的学员将获得课程结业证书。

报名咨询

富老师:13699120588

柳老师:15202171854

喜欢这篇文章

请为我点赞和在看

展开
打开“财经头条”阅读更多精彩资讯
最新评论

参与讨论

APP内打开