今天凌晨2点,OpenAI对Agent SDK进行了重大更新支持MCP服务,可以统一接口标准解锁无限工具。
现在Agent可以快速集成网络搜索、专业分析、本地查询、网络追踪等各式各样的工具,这对于开发超复杂自动化智能体来说帮助巨大。
例如,在开发一个需要同时进行文件处理、数据查询和网络信息收集的智能体时,开发者可以通过 MCP 服务器分别集成文件系统工具、数据库查询工具和网络爬虫工具,更高效地完成复杂任务。
连OpenAI联合创始人兼首席执行官Sam Altman也特意发文大赞MCP,可见其对Agent的重要性。
可能很多人会对MCP比较陌生,「AIGC开放社区」先为大家简单介绍一下技术概念。MCP全称为Model Context Protocol,是一种专为大模型开放的统一开放接口。
更直白一点,你可以把MCP看成大模型的“USB接口”,任何符合接口的工具,例如,U盘、移动硬盘、网络适配器、外置网卡都能插在上面,这下知道为啥是解锁无限工具了吧。
MCP的核心框架一共由模型、上下文、协议三个关键部分组成:模型是系统的逻辑核心,定义了数据的结构、决策的逻辑以及系统如何解释信息。在传统软件开发中,模型可以通过面向对象编程模型、数据库架构或AI/ML模型来实现。在AI应用中,模型可能是理解语言的神经网络、处理图像的深度学习模型,或者是进行预测分析的机器学习算法。
在企业软件中,模型可能是指导客户互动的实体关系模型。总之模型是系统的基础,决定了系统如何处理和理解数据。
上下文为模型提供了运行的环境,决定了模型在不同条件下的行为。包括用户交互、环境因素和系统状态等变量。例如,一个AI聊天机器人会根据对话的上下文生成不同的回答,就像金融预测模型会根据经济趋势调整预测结果一样。没有适当的上下文,模型可能会产生不相关或错误的输出。上下文的动态性,能帮助系统能够根据实时数据和环境变化调整其行为。
协议是通信的桥梁定义了系统内不同组件之间的交互规则。确保了模型和上下文之间的通信,使得上下文的变化能够正确影响模型,反之亦然。
在实际应用中,协议管理微服务之间的数据交换、AI组件之间的交互,甚至是Web应用中的API通信。协议确保了分布式环境中的数据一致性、安全性和效率。
首先MCP为Agent提供了标准化的方式来接入各种工具和数据源,无论是本地运行的工具,例如通过stdio服务器,还是远程托管的服务HTTP over SSE服务, Agent都可以通过统一的接口与它们进行交互,极大扩展了第三方工具库。
例如,在金融领域,Agent 可以接入股票分析的MCP工具。当用户询问某只股票的详细信息时,Agent 可以调用该工具,快速获取股票的实时价格、历史走势、财务指标等数据,并进行深入分析,为用户提供专业的投资建议。
这种标准化的接入方式极大地减少了Agent与不同工具集成时的复杂性,并且由于MCP定义了清晰的协议,Agent可以轻松地接入新的工具和服务,而无需对Agent的核心逻辑进行大量的修改,这使得Agent能够快速适应新的应用场景和需求。
此外,MCP还为Agent带来了动态工具发现的能力。每次Agent运行时,SDK会调用MCP服务器的方法,动态获取当前可用的工具列表。帮助Agent可以实时了解哪些工具是可用的,而无需在代码中硬编码工具信息。
这种动态发现机制赋予了Agent极高的灵活性和适应性,使其能够适应工具的变化,例如工具的新增、删除或更新。如果工具列表发生变化,Agent可以立即感知并调整其行为,从而更好地应对动态的环境和需求。
在性能优化方面,MCP同样表现出色。支持对工具列表进行缓存,Agent可以在多次运行中复用工具列表,从而减少每次运行时调用工具的延迟,能够显著提升Agent的自动化效率。
同时Agent仅在需要时调用MCP服务器的工具,而不是在初始化时加载所有工具。这种按需调用的方式可以减少资源消耗,提高系统的整体性能。
在开发方面,MCP也极大地简化了开发工作。开发者可以通过简单的配置将MCP服务器添加到Agent中,而无需编写大量的代码来实现工具的接入逻辑。这大大简化了开发流程,缩短了开发周期。
由于工具的接入是通过MCP协议标准化的,开发者可以更容易地对工具进行调试和测试。同时,工具的独立性也使得问题定位更加方便,进一步提升了开发效率。
MCP还实现了解耦与模块化的设计。它将工具和数据源的实现细节与Agent的逻辑分离,Agent不需要关心工具的具体实现,只需要通过MCP协议与工具交互。这种解耦设计使得Agent的代码更加简洁、易于维护。
同时,工具可以作为独立的模块通过MCP服务器提供给Agent。开发者可以独立开发和部署工具,而无需修改Agent的代码。这种模块化方式使得系统的各个部分可以独立升级和优化,进一步提升了系统的灵活性和可维护性。
说了那么多枯燥技术,咱直接看下实际的MCP服务吧。
Firecrawl MCP服务:提供数据抓取、网页爬虫、深度研究、提取结构化数据等。
Browserbase MCP服务:创建浏览器会话、导航至指定 URL、截取屏幕截图等。
Opik MCP服务:启用追踪、获取追踪统计数据等。
Brave MCP:本地搜索、网络搜索等。
目前,OpenAI已经在开源的Agent SDK中支持MCP,API和桌面版ChatGPT也将很快提供。
今天凌晨2点,OpenAI对Agent SDK进行了重大更新支持MCP服务,可以统一接口标准解锁无限工具。
现在Agent可以快速集成网络搜索、专业分析、本地查询、网络追踪等各式各样的工具,这对于开发超复杂自动化智能体来说帮助巨大。
例如,在开发一个需要同时进行文件处理、数据查询和网络信息收集的智能体时,开发者可以通过 MCP 服务器分别集成文件系统工具、数据库查询工具和网络爬虫工具,更高效地完成复杂任务。
连OpenAI联合创始人兼首席执行官Sam Altman也特意发文大赞MCP,可见其对Agent的重要性。
可能很多人会对MCP比较陌生,「AIGC开放社区」先为大家简单介绍一下技术概念。MCP全称为Model Context Protocol,是一种专为大模型开放的统一开放接口。
更直白一点,你可以把MCP看成大模型的“USB接口”,任何符合接口的工具,例如,U盘、移动硬盘、网络适配器、外置网卡都能插在上面,这下知道为啥是解锁无限工具了吧。
MCP的核心框架一共由模型、上下文、协议三个关键部分组成:模型是系统的逻辑核心,定义了数据的结构、决策的逻辑以及系统如何解释信息。在传统软件开发中,模型可以通过面向对象编程模型、数据库架构或AI/ML模型来实现。在AI应用中,模型可能是理解语言的神经网络、处理图像的深度学习模型,或者是进行预测分析的机器学习算法。
在企业软件中,模型可能是指导客户互动的实体关系模型。总之模型是系统的基础,决定了系统如何处理和理解数据。
上下文为模型提供了运行的环境,决定了模型在不同条件下的行为。包括用户交互、环境因素和系统状态等变量。例如,一个AI聊天机器人会根据对话的上下文生成不同的回答,就像金融预测模型会根据经济趋势调整预测结果一样。没有适当的上下文,模型可能会产生不相关或错误的输出。上下文的动态性,能帮助系统能够根据实时数据和环境变化调整其行为。
协议是通信的桥梁定义了系统内不同组件之间的交互规则。确保了模型和上下文之间的通信,使得上下文的变化能够正确影响模型,反之亦然。
在实际应用中,协议管理微服务之间的数据交换、AI组件之间的交互,甚至是Web应用中的API通信。协议确保了分布式环境中的数据一致性、安全性和效率。
首先MCP为Agent提供了标准化的方式来接入各种工具和数据源,无论是本地运行的工具,例如通过stdio服务器,还是远程托管的服务HTTP over SSE服务, Agent都可以通过统一的接口与它们进行交互,极大扩展了第三方工具库。
例如,在金融领域,Agent 可以接入股票分析的MCP工具。当用户询问某只股票的详细信息时,Agent 可以调用该工具,快速获取股票的实时价格、历史走势、财务指标等数据,并进行深入分析,为用户提供专业的投资建议。
这种标准化的接入方式极大地减少了Agent与不同工具集成时的复杂性,并且由于MCP定义了清晰的协议,Agent可以轻松地接入新的工具和服务,而无需对Agent的核心逻辑进行大量的修改,这使得Agent能够快速适应新的应用场景和需求。
此外,MCP还为Agent带来了动态工具发现的能力。每次Agent运行时,SDK会调用MCP服务器的方法,动态获取当前可用的工具列表。帮助Agent可以实时了解哪些工具是可用的,而无需在代码中硬编码工具信息。
这种动态发现机制赋予了Agent极高的灵活性和适应性,使其能够适应工具的变化,例如工具的新增、删除或更新。如果工具列表发生变化,Agent可以立即感知并调整其行为,从而更好地应对动态的环境和需求。
在性能优化方面,MCP同样表现出色。支持对工具列表进行缓存,Agent可以在多次运行中复用工具列表,从而减少每次运行时调用工具的延迟,能够显著提升Agent的自动化效率。
同时Agent仅在需要时调用MCP服务器的工具,而不是在初始化时加载所有工具。这种按需调用的方式可以减少资源消耗,提高系统的整体性能。
在开发方面,MCP也极大地简化了开发工作。开发者可以通过简单的配置将MCP服务器添加到Agent中,而无需编写大量的代码来实现工具的接入逻辑。这大大简化了开发流程,缩短了开发周期。
由于工具的接入是通过MCP协议标准化的,开发者可以更容易地对工具进行调试和测试。同时,工具的独立性也使得问题定位更加方便,进一步提升了开发效率。
MCP还实现了解耦与模块化的设计。它将工具和数据源的实现细节与Agent的逻辑分离,Agent不需要关心工具的具体实现,只需要通过MCP协议与工具交互。这种解耦设计使得Agent的代码更加简洁、易于维护。
同时,工具可以作为独立的模块通过MCP服务器提供给Agent。开发者可以独立开发和部署工具,而无需修改Agent的代码。这种模块化方式使得系统的各个部分可以独立升级和优化,进一步提升了系统的灵活性和可维护性。
说了那么多枯燥技术,咱直接看下实际的MCP服务吧。
Firecrawl MCP服务:提供数据抓取、网页爬虫、深度研究、提取结构化数据等。
Browserbase MCP服务:创建浏览器会话、导航至指定 URL、截取屏幕截图等。
Opik MCP服务:启用追踪、获取追踪统计数据等。
Brave MCP:本地搜索、网络搜索等。
目前,OpenAI已经在开源的Agent SDK中支持MCP,API和桌面版ChatGPT也将很快提供。