Anthropic: 构建有效的智能体 AI agent

在过去的一年里，我们与数十个在不同行业构建大型语言模型（LLM）智能体的团队合作。我们发现，最成功的实现始终没有使用复杂的框架或专门的库。相反，他们使用的是简单、可组合的模式来构建。

在这篇文章中，我们将分享从与客户合作以及我们自己构建智能体中学到的经验，并为开发者提供关于构建有效智能体的实用建议。

什么是智能体？

“智能体”可以有多种定义方式。一些客户将智能体定义为完全自主的系统，能够长时间独立运行，使用各种工具来完成复杂任务。另一些客户则用这个词来描述遵循预定义工作流的、更具规定性的实现。在 Anthropic，我们将所有这些变体归类为智能体系统，但在架构上区分了工作流和智能体：

工作流是通过预定义的代码路径来编排 LLM 和工具的系统。
另一方面，智能体是 LLM 动态地指导自身流程和工具使用的系统，保持对如何完成任务的掌控。

下面，我们将详细探讨这两种类型的智能体系统。在附录 1（“实践中的智能体”）中，我们描述了客户发现使用这类系统具有特别价值的两个领域。

何时（以及何时不）使用智能体

在使用 LLM 构建应用时，我们建议找到尽可能简单的解决方案，并且只在需要时才增加复杂性。这可能意味着根本不用去构建智能体系统。智能体系统通常会用延迟和成本来换取更好的任务性能，您应该考虑这种权衡何时有意义。

当需要更多复杂性时，对于定义明确的任务，工作流提供了可预测性和一致性；而当需要大规模灵活性和模型驱动的决策时，智能体是更好的选择。然而，对于许多应用来说，通过检索和上下文示例来优化单次 LLM 调用通常就足够了。

何时以及如何使用框架

有许多框架可以更轻松地实现智能体系统，包括：

Claude 智能体 SDK；
AWS 的 Strands 智能体 SDK；
Rivet，一个拖拽式的图形化 LLM 工作流构建器；以及
Vellum，另一个用于构建和测试复杂工作流的图形化工具。

这些框架通过简化标准的底层任务（如调用 LLM、定义和解析工具、以及链式调用）使入门变得容易。然而，它们通常会创建额外的抽象层，这些抽象层可能会掩盖底层的提示词和响应，使其更难调试。它们也可能诱使你在一个更简单的设置就足够的情况下增加复杂性。

我们建议开发者从直接使用 LLM API 开始：许多模式可以用几行代码实现。如果你确实使用了框架，请确保你理解了底层代码。对底层机制的错误假设是客户出错的常见来源。

请参阅我们的示例库获取一些示例实现。

构建块、工作流和智能体

在本节中，我们将探讨我们在生产环境中看到的智能体系统的常见模式。我们将从我们的基础构建块——增强型 LLM——开始，并逐步增加复杂性，从简单的组合工作流到自主智能体。

构建块：增强型 LLM

智能体系统的基本构建块是一个通过检索、工具和记忆等增强功能进行强化的 LLM。我们当前的模型可以主动使用这些功能——生成自己的搜索查询、选择合适的工具，以及决定保留哪些信息。

增强型 LLM

我们建议关注实现的两个关键方面：为你的特定用例定制这些功能，并确保它们为你的 LLM 提供一个简单、文档清晰的接口。虽然有多种方法可以实现这些增强功能，但一种方法是通过我们最近发布的模型上下文协议，它允许开发者通过简单的客户端实现与不断增长的第三方工具生态系统进行集成。

在本文的剩余部分，我们将假设每个 LLM 调用都能访问这些增强功能。

工作流：提示词链

提示词链将任务分解为一系列步骤，每个 LLM 调用处理前一个调用的输出。您可以在任何中间步骤添加程序化检查（参见下图的“门控”），以确保流程仍在正轨上。

提示词链工作流

何时使用此工作流： 此工作流非常适合任务可以轻松、清晰地分解为固定子任务的情况。主要目标是通过使每个 LLM 调用都成为更简单的任务，用延迟换取更高的准确性。

提示词链有用的示例：

生成营销文案，然后将其翻译成另一种语言。
编写文档大纲，检查大纲是否符合某些标准，然后基于大纲编写文档。

工作流：路由

路由对输入进行分类，并将其引导至专门的后续任务。此工作流实现了关注点分离，并允许构建更专门的提示词。没有此工作流，针对一种输入类型的优化可能会损害其他输入类型的性能。

路由工作流

何时使用此工作流： 路由适用于存在不同类别且最好分别处理的复杂任务，并且这些类别可以由 LLM 或更传统的分类模型/算法准确分类。

路由有用的示例：

将不同类型的客户服务查询（一般问题、退款请求、技术支持）引导到不同的下游流程、提示词和工具。
将简单/常见问题路由到更小、更具成本效益的模型（如 Claude Haiku 4.5），将困难/不寻常的问题路由到能力更强的模型（如 Claude Sonnet 4.5），以优化性能。

工作流：并行化

LLM 有时可以同时处理一个任务，然后通过程序化方式聚合它们的输出。这种工作流，即并行化，有两种关键变体：

分段：将任务分解为并行运行的独立子任务。
投票：多次运行同一任务以获得不同的输出。

并行化工作流

何时使用此工作流： 当分解后的子任务可以并行化以提高速度时，或者需要多个视角或尝试以获得更高置信度的结果时，并行化是有效的。对于具有多方面考虑的复杂任务，LLM 通常在由单独的 LLM 调用处理每个考虑因素时表现更好，这样可以集中关注每个特定方面。

并行化有用的示例：

分段：
- 实现护栏，其中一个模型实例处理用户查询，而另一个实例筛选不当内容或请求。这通常比让同一个 LLM 调用同时处理护栏和核心响应表现更好。
- 自动化评估 LLM 性能，其中每个 LLM 调用评估模型在给定提示词上性能的不同方面。
投票：
- 审查代码中的漏洞，多个不同的提示词审查代码，并在发现问题时标记代码。
- 评估给定内容是否不当，多个提示词评估不同方面或要求不同的投票阈值，以平衡误报和漏报。

工作流：协调者-工作者

在协调者-工作者工作流中，一个中心 LLM 动态地分解任务，将它们委派给工作者 LLM，并综合它们的结果。

协调者-工作者工作流

何时使用此工作流： 此工作流非常适合那些无法预先预测所需子任务的复杂任务（例如，在编码中，需要更改的文件数量以及每个文件更改的性质很可能取决于具体任务）。虽然它在拓扑上相似，但与并行化的关键区别在于其灵活性——子任务不是预定义的，而是由协调者根据特定输入决定的。

协调者-工作者有用的示例：

每次需要对多个文件进行复杂更改的编码产品。
涉及从多个来源收集和分析信息以获取可能相关信息的搜索任务。

工作流：评估器-优化器

在评估器-优化器工作流中，一个 LLM 调用生成响应，而另一个在循环中提供评估和反馈。

评估器-优化器工作流

何时使用此工作流： 当我们有明确的评估标准，并且迭代优化能带来可衡量的价值时，此工作流尤其有效。适合使用此模式的两个迹象是：首先，当人类阐明其反馈时，LLM 的响应可以得到明显改进；其次，LLM 能够提供此类反馈。这类似于人类写作者在撰写一篇精炼文档时可能经历的迭代写作过程。

评估器-优化器有用的示例：

文学翻译，其中翻译 LLM 可能最初无法捕捉到细微差别，但评估 LLM 可以提供有用的批评意见。
复杂的搜索任务，需要多轮搜索和分析来收集全面信息，由评估器决定是否需要进行进一步搜索。

智能体

随着 LLM 在关键能力上的成熟——理解复杂输入、进行推理和规划、可靠地使用工具以及从错误中恢复——智能体正在生产环境中涌现。智能体从人类的命令或与人类的互动讨论开始其工作。一旦任务明确，智能体就会独立规划和操作，并可能返回人类以获取更多信息或判断。在执行过程中，智能体必须在每一步从环境中获取“真实情况”（例如工具调用结果或代码执行）以评估其进展。然后，智能体可以在检查点或遇到障碍时暂停以获取人类反馈。任务通常在完成时终止，但通常也会包含停止条件（例如最大迭代次数）以保持控制。

智能体可以处理复杂的任务，但它们的实现通常很简单。它们通常只是在循环中基于环境反馈使用工具的 LLM。因此，清晰而周到地设计工具集及其文档至关重要。我们将在附录 2（“工具的提示词工程”）中详细展开关于工具开发的最佳实践。

自主智能体

何时使用智能体： 智能体可用于开放式问题，这些问题难以或无法预测所需的步骤数，并且无法硬编码固定路径。LLM 可能会运行多个回合，你必须对其决策有某种程度的信任。智能体的自主性使其成为在可信环境中扩展任务的理想选择。

智能体的自主性意味着更高的成本以及错误累积的潜在可能。我们建议在沙盒环境中进行广泛测试，并设置适当的护栏。

智能体有用的示例：

以下示例来自我们自己的实现：

一个用于解决 SWE-bench 任务的编码智能体，涉及根据任务描述对多个文件进行编辑；
我们的“计算机使用”参考实现，其中 Claude 使用计算机来完成任务。

编码智能体的高级流程图

组合和定制这些模式

这些构建块并非规定性的。它们是开发者可以根据不同用例进行塑造和组合的常见模式。与任何 LLM 功能一样，成功的关键在于衡量性能并迭代实现。重申一下：只有在能证明改进了结果的情况下，才应考虑增加复杂性。

总结

在 LLM 领域取得成功不在于构建最复杂的系统。而在于为你的需求构建正确的系统。从简单的提示词开始，通过全面的评估对其进行优化，并且仅在更简单的解决方案不足时才添加多步智能体系统。

在实现智能体时，我们努力遵循三个核心原则：

在智能体设计中保持简洁性。
通过明确展示智能体的规划步骤来优先考虑透明度。
通过彻底的工具文档和测试来精心设计你的智能体-计算机接口（ACI）。

框架可以帮助你快速入门，但在进入生产环境时，不要犹豫，减少抽象层并使用基础组件进行构建。通过遵循这些原则，你可以创建不仅强大，而且可靠、可维护且受用户信任的智能体。

致谢

作者：Erik Schluntz 和 Barry Zhang。本文借鉴了我们在 Anthropic 构建智能体的经验，以及客户分享的宝贵见解，对此我们深表感谢。

附录 1：实践中的智能体

与客户的合作揭示了 AI 智能体的两个特别有前景的应用，展示了上述模式的实际价值。这两个应用都说明了智能体如何在需要对话和行动、有明确的成功标准、能够实现反馈循环并整合有意义的人工监督的任务中增加最大价值。

A. 客户支持

客户支持通过工具集成将熟悉的聊天机器人界面与增强功能相结合。这对于更开放式的智能体来说是一个自然的选择，因为：

支持交互自然地遵循对话流程，同时需要访问外部信息和操作；
可以集成工具来获取客户数据、订单历史记录和知识库文章；
退款发放或工单更新等操作可以通过编程方式处理；
可以通过用户定义的解决方案来清晰地衡量成功。

几家公司已经通过按次成功付费的使用定价模式证明了这种方法的可行性，表明了对他们智能体有效性的信心。

B. 编码智能体

软件开发领域已显示出 LLM 功能的巨大潜力，其能力从代码补全发展到自主解决问题。智能体尤其有效，因为：

代码解决方案可以通过自动化测试进行验证；
智能体可以利用测试结果作为反馈来迭代解决方案；
问题空间定义明确且结构良好；
输出质量可以客观衡量。

在我们自己的实现中，智能体现在可以仅根据拉取请求描述来解决 SWE-bench Verified 基准中的真实 GitHub 问题。然而，尽管自动化测试有助于验证功能，但人工审查对于确保解决方案符合更广泛的系统要求仍然至关重要。

附录 2：工具的提示词工程

无论你正在构建哪种智能体系统，工具都可能是你智能体的重要组成部分。工具通过在我们的 API 中指定其确切结构和定义，使 Claude 能够与外部服务和 API 交互。当 Claude 响应时，如果它计划调用某个工具，它将在 API 响应中包含一个工具使用块。工具定义和规范应该像你的整体提示词一样，得到同等的提示词工程关注。在这个简短的附录中，我们将描述如何对工具进行提示词工程。

通常有几种方法可以指定相同的操作。例如，你可以通过编写 diff 来指定文件编辑，或者重写整个文件。对于结构化输出，你可以在 markdown 内部或 JSON 内部返回代码。在软件工程中，像这样的差异是表面的，并且可以从一种无损地转换为另一种。然而，某些格式对于 LLM 来说比其他格式更难编写。编写 diff 需要知道在编写新代码之前，块头中有多少行正在更改。在 JSON 内部（与 markdown 相比）编写代码需要对换行符和引号进行额外的转义。

我们关于决定工具格式的建议如下：

给模型足够的令牌来“思考”，然后再把自己逼入死胡同。
保持格式接近模型在互联网上文本中自然出现的形式。
确保没有格式“开销”，例如必须精确计算数千行代码的数量，或对其编写的任何代码进行字符串转义。

一条经验法则是思考在人机交互（HCI）上投入了多少精力，并计划在创造良好的智能体-计算机接口（ACI）上投入同样多的精力。以下是一些关于如何做到这一点的想法：

设身处地为模型着想。基于描述和参数，如何使用这个工具是否显而易见，还是需要仔细考虑？如果是后者，那么对模型来说很可能也是如此。一个好的工具定义通常包括示例用法、边缘情况、输入格式要求以及与其他工具的清晰界限。
如何更改参数名称或描述以使事情更明显？把这想象成为你团队中的初级开发者编写一份出色的文档字符串。当使用许多类似工具时，这一点尤其重要。
测试模型如何使用你的工具：在我们的工作台中运行许多示例输入，查看模型犯了哪些错误，并进行迭代。
对你的工具实施防错设计。更改参数，使得出错更加困难。

在为 SWE-bench 构建我们的智能体时，我们实际上花费了更多时间来优化我们的工具，而不是整体提示词。例如，我们发现，当智能体离开根目录后，使用相对文件路径的工具会出错。为了解决这个问题，我们更改了工具，使其始终需要绝对文件路径——我们发现模型完美地使用了这种方法。