AI Agent，将如何打破大模型的应用边界？

虎嗅APP

1天前

尽管初期承载着高期望，实际应用的场景却相对基础且单一，主要集中在模型生成领域，如营销文案、客服对话、写作辅助等。...在写作场景中，大模型能够提供一定的创作灵感和文本框架，但缺乏深度思考和个性化定制能力，难以满足高要求的写作任务。

点击卡片关注我们

大语言模型的浪潮，推进了AlAgent落地

上个世纪50年代，阿兰·图灵首次将"高度智能有机体"的概念提出。经过半个多世纪的发展，终于在2023年进入了一个新的高潮，并于今年进入了爆发阶段。

自2022年11月30日chatGPT发布以来，国内的模型厂商便开始了紧锣密鼓的追赶之路，呈现出百花齐放的态势。借助大语言模型，AI Agent智能化水平有了显著提高，应用场景也日益丰富。

Al Agent是一种结合了大语言模型、规划工具、记忆能力等的智能体，能够像企业员工一样，使用企业内部的知识和工具完成任务。其表现出的诸如善于处理复杂任务、替代重复性工作、助力办公自动化等巨大潜力，将重塑企业经营全价值链。

表：中国AI Agent市场规模(单位：亿人民币)

来源：头豹研究院，虎嗅智库

Al Agent作为大模型在各行各业应用落地的重要抓手，目前已发展到哪一步了、在哪些场景下有了落地实践、未来一年内又将有何变化、企业对此可以做哪些准备，是行业重点关心的问题。

本篇洞察文从Agent核心技术、Agent价值、应用场景与典型案例等多个维度，对AI Agent的现状进行深入探讨和总结。

2024年度大鲸榜已经启动，寻找在AIGC、AI Agent、工业大模型等领域取得显著成果、实现深度应用的企业。

对外征集入口即将开放，添加大鲸助理（VX：17710850103）提前报名，不错过任何评选进展。

Agent本质上是要突破语言模型的边界

在了解AI Agent之前，需要深刻了解大模型的真实能力。

在国内当前阶段，大模型的能力已经实现了显著提升，众多场景下已成功投入生产应用。然而，尽管初期承载着高期望，实际应用的场景却相对基础且单一，主要集中在模型生成领域，如营销文案、客服对话、写作辅助等。这些应用虽有其价值，但相较于企业核心的生产与业务流程，其关联度和影响力仍显不足。同时，这些应用的产出质量也有待提高，限制了其更深层次的应用和推广。

图：大模型在企业中落地时存在三个主要矛盾

来源：来也科技，虎嗅智库

结合具体场景来看下大模型在企业实际业务落地中的问题：

第一类是模型生成类应用。此类应用是目前大模型最常见的应用场景，它们利用模型的文本生成能力，快速产生各类内容。然而，这些内容在创意性、专业性和准确性上往往难以达到企业级的标准，导致在实际业务中的应用效果有限。

其次，大模型在客服领域的应用也颇为广泛，能够处理基本的用户咨询和问题解答。然而，面对复杂或专业领域的问题时，模型的回答质量和准确性往往难以保证，影响了用户体验。

在写作场景中，大模型能够提供一定的创作灵感和文本框架，但缺乏深度思考和个性化定制能力，难以满足高要求的写作任务。

那么，大模型为何难以完成企业的“预期目标”呢？这要从大模型本身的能力说起。

大模型，尤其是基于Transformer结构的语言模型，其核心是通过分析大量文本数据来学习词汇之间的概率关系，从而预测下一个最可能的词。这种方式虽然高效且在某些任务上表现出色，但其本质上是线性的、直接的，缺乏人类思维中的反思和推理过程。这种特性限制了模型在处理需要复杂逻辑和推理能力的任务时的表现。

当前大模型虽然在处理通用任务时表现出色，但在面对特定行业或领域的专业问题时，其泛化能力显得捉襟见肘。这限制了模型在更多复杂场景下的应用。

模型训练依赖于大量数据，但现实中高质量、多样化的数据往往难以获取。这导致模型在训练过程中可能存在偏差，影响其在实际应用中的表现。

综上，推理能力边界、模型泛化能力不足、数据质量与多样性问题是当下大模型面临的核心挑战。其中，推理能力边界的问题亟待解决。

那么，提升大模型推理能力的方法有哪些?虎嗅智库通过调研总结，认为有如下几种路径：

Agent，就是为了增强大模型深入思考的能力

Agent作为智能代理，其核心理念是让机器能够像人一样进行多轮对话、思考和决策。在大模型的背景下，引入Agent的概念意味着通过以下方式提升模型的能力：

1）多轮对话管理的能力：使模型能够理解和响应多轮对话中的上下文信息，从而进行更深入、更连贯的交流。

2）主动询问与澄清的能力：当模型遇到不确定或模糊的信息时，能够主动提出问题或请求澄清，以提高其处理复杂问题的能力。

3）策略性决策的能力：赋予模型在多个可行方案中进行选择的能力，以更灵活地应对不同场景和需求。

总体来看，当下AI Agent基本上具备了模仿人类工作流程、完成部分复杂任务的能力。

在模仿人类工作流程这一部分，Agentwork的核心在于让语言模型模仿人类在从事特定工作时的sop(标准操作程序)或workflow(工作流程)。这种模仿使得模型能够更自然地处理多轮对话、理解上下文，并在需要时进行反思和推理，从而更接近于人类的工作方式。而通过学习和模拟不同领域的工作流程，模型可以更加灵活地应对各种挑战和变化，从而增强其泛化性和适应性。

通过将Agent引入语言模型，可以显著提升模型在处理复杂任务时的能力。Agent能够协调和管理多个子任务，确保任务之间的逻辑连贯性和高效执行。这种能力对于需要多步骤、多轮次交互的任务尤为重要。

需要注意的是，根据自主程度，AI Agent可分为自主智能体和非自主智能体。自主智能体具备任务探索能力，但目前主要处于学术研究阶段；非自主智能体则更多地作为既有业务逻辑的执行单元，在企业中逐渐落地应用。

综上所述，通过引入Agent概念和相关技术，我们可以期待大模型在未来能够更接近人类智能水平，为更多领域带来创新和应用价值。

Al Agent目前落地在哪些场景?

接下来，我们结合实际案例进一步阐释，AIAgent在企业业务场景里的应用。

文案生成及写作：AI Agent可以还原人类专家的工作过程，直接交付服务结果。所以诸如报告写作、研报、甚至方案，Agent也能较好地完成。

例如在某方案生成流程中，Agent成为了核心驱动力，通过API接口实时传入相关信息，Agent接收到相关信息后，可迅速启动其内置的分析与推理机制，结合广泛的数据资源与深度学习模型，自动生成高质量的竞赛方案，从而大幅缩短制作时间。

文档审核场景：对于企业来说，每天要花大量时间处理及反复确认各类重要文档，包括采购合同、销售合同、采购订单、客户订单、运输凭证、发票等。存在1）文档数量大、种类多；2）审核规则复杂、多变；3）流程长、协作多；4）语种多、跨时区等难点，同时也是一项容错率低的工作。

AI Agent在此类场景下，能极大改善文档审核的工作方式。包括1）业务人员通过自然语言描述，即可配置文档审核助手的审核字段和规则；2）文档审核助手可7*24小时待命，主动审核并将结果反馈，提升响应效率；3）每个审核点可一键定位到原文，实现人机协同和任务管理；4）益于企业统一纳管，加速内部流程，提高合规性。

智能简历筛查(招聘场景)：毫无疑问，越是统一标准和重复的工作，越是人力期待用Al来解决的。在招聘环节里常见的职位发布、简历投递咨询、简历筛选、面试考核、面试评价、offer发放，AI Agent可以发挥较大价值。

表：Agent的核心能力与应用价值

来源：未来式智能，虎嗅智库

例如，摒弃传统语料库模型，通过上传公司资料和招聘资料。客服机器人可自主学习知识内容，精准识别语义，理解问题从而让回答更精准。同样的，语义理解，也可以评估海量简历（这也包括企业历史积累的大量建立），辅助HR完成简历筛选工作，提升后续面试通过率。

大模型的能力边界，也令Al Agent能执行的任务较为局限

回到文章前面提到的观点，引入Agent是提升语言模型能力、突破其能力边界的有效途径之一。

但从实际应用进展来看上，两者是相互作用、相互牵制的，Al Agent应用场景需要充分理解模型能力边界，随着模型能力提升会不断拓展应用边界。现阶段来说，AI Agent应聚焦在高价值、可落地的场景上。

总结：AI Agent通过海量文本数据学习，提升了知识的广度和深度，厂商通过自有行业数据训练，进一步增强了模型在垂直领域的深度。从主流厂商产品上来看，AI Agent在特定模块化功能、以及人工参与性强的功能上表现良好，但在全自动化和复杂推理任务上仍需改进。

优势：AIAgent在内容生成（包括文本、代码、多模态数据）、非结构化数据处理等方面表现出色，尤其是在文本生成和文档理解方面，能力显著提升。

劣势：当前AI Agent的发展仍受限于模型本身的推理能力和执行任务的能力。这种差距可能源于底层学习机制的不同，Al主要依赖数据反馈，而人类学习基于规则和经验。推理能力在多步推理和复杂任务中仍有待提升，与人或实际应用需求相比存在较大差距;执行任务时，与真实世界的交互和业务流程的融合也存在挑战。

扫码报名申请加入

虎嗅智库数字化/AI落地创新实践交流群

关于虎嗅智库

虎嗅智库是一家聚焦企业数字化、AI创新实践的新型研究服务机构，为产业智能化进程中的甲乙双方，提供有洞察性的研究报告、案例评选、以及线上会议、线下活动与参访服务，以支持企业高管在智能化、数字化方面的明智决策。

我们提供的核心价值

及时与优质的洞察，了解技术、了解行业、了解同行与对手；

为决策者技术与产品战略决策、产业规划、解决方案选型提供重要参考；
帮助市场全面了解前沿科技及所影响产业的发展状况，还有未来趋势；

虎嗅智库官网：hri.huxiu.com