Appearance
2. 什么是 Agent?
2.1 概念:应用程序
宽泛地来说,生成式 AI Agent 可以被定义为一个应用程序,通过观察周围世界并使用可用的工具来实现其目标。
- 自主性:Agent 是有自主能力的(autonomous),只要提供了合适的目标,它们就能独立行动,无需人类干预;
- 推理能力:即使是模糊的人类指令,Agent 也可以推理出它接下来应该做什么,并采取行动,最终实现其目标。
在 AI 领域,Agent 是一个非常通用的概念。本文讨论的 Agent 更具体,指的是基于生成式 AI 模型能够实现的 Agents。
2.2 架构:认知架构
为了理解 Agent 的内部工作原理,我们需要看看驱动 Agent 行为、行动和决策(behavior, actions, and decision making)的基础组件。
这些组件的组合实现了一种所谓的认知架构(cognitive architecture),通过这些组件可以实现许多这样的架构。
2.3 组件
Agent 架构中有三个核心组件:
2.3.1 模型(model)
这里指的是用作 Agent 中用来做核心决策的语言模型(LM)。
- 可以是一个或多个任何大小的模型,能够遵循基于指令的推理和逻辑框架,如 ReAct、Chain-of-Thought、Tree-of-Thoughts。
- 可以是通用的、多模态的,或根据特定 Agent 架构的需求微调得到的模型。
- 可以通过"能展示 Agent 能力的例子或数据集"来进一步微调模型,例如 Agent 在什么上下文中使用什么工具,或者执行什么推理步骤。
2.3.2 工具(tool)
基础模型在文本和图像生成方面非常强大,但无法与外部世界直接交互。工具是模型通往现实世界的桥梁,使 Agent 能够:
- 访问实时信息(如天气、新闻、股票价格)
- 执行计算(如数学计算、代码执行)
- 与外部系统交互(如数据库、API、设备)
- 处理文件和数据
2.3.3 编排层(orchestration)
编排层负责协调模型和工具的交互,管理 Agent 的执行流程:
- 记忆模块:存储和检索历史信息,保持上下文连贯性
- 规划模块:制定任务执行计划,分解复杂任务
- 执行模块:协调工具使用和结果处理
- 学习模块:从经验中学习,改进未来的决策
2.4 Agent 与 model 的区别
| 特性 | 大语言模型 | Agent |
|---|---|---|
| 响应方式 | 被动响应,基于输入生成输出 | 主动规划,能够自主决策 |
| 工具使用 | 无法直接使用外部工具 | 能够使用外部工具扩展能力 |
| 上下文处理 | 依赖上下文窗口,有限制 | 可以使用外部记忆,突破上下文限制 |
| 任务完成 | 一次性生成,缺乏连续性 | 多步骤执行,持续与环境交互 |
| 适应性 | 固定能力,难以适应新任务 | 能够通过工具和学习适应新任务 |
2.5 常见的 Agent 类型
2.5.1 反应式 Agent
- 特点:基于当前状态直接反应,没有复杂的规划
- 优势:响应速度快,适合简单任务
- 应用场景:简单的问答、信息检索
2.5.2 深思熟虑的 Agent
- 特点:会进行详细的规划和推理
- 优势:能够处理复杂任务,决策质量高
- 应用场景:复杂问题解决、多步骤任务
2.5.3 混合 Agent
- 特点:结合反应式和深思熟虑的方法
- 优势:平衡速度和准确性
- 应用场景:大多数实际应用
2.6 Agent 的应用场景
个人助手
- 日程管理、信息查询
- 任务自动化、个性化建议
专业助手
- 法律咨询、医疗诊断
- 金融顾问、教育辅导
科研助手
- 文献检索、实验设计
- 数据分析、论文写作
企业应用
- 客户服务、销售支持
- 数据分析、流程自动化
2.7 小结
- Agent 是扩展了大模型出厂能力的应用程序
- Agent 由模型、工具和编排层三个核心组件组成
- Agent 具备自主性和推理能力,能够使用工具与外部世界交互
- Agent 比传统大语言模型更适合处理复杂任务和持续交互
现在你已经了解了 Agent 的基本概念和架构,接下来让我们深入探讨 Agent 的认知架构和工作原理。
