Skip to content

2. 什么是 Agent?

2.1 概念:应用程序

宽泛地来说,生成式 AI Agent 可以被定义为一个应用程序,通过观察周围世界并使用可用的工具来实现其目标。

  • 自主性:Agent 是有自主能力的(autonomous),只要提供了合适的目标,它们就能独立行动,无需人类干预;
  • 推理能力:即使是模糊的人类指令,Agent 也可以推理出它接下来应该做什么,并采取行动,最终实现其目标。

在 AI 领域,Agent 是一个非常通用的概念。本文讨论的 Agent 更具体,指的是基于生成式 AI 模型能够实现的 Agents。

2.2 架构:认知架构

为了理解 Agent 的内部工作原理,我们需要看看驱动 Agent 行为、行动和决策(behavior, actions, and decision making)的基础组件。

这些组件的组合实现了一种所谓的认知架构(cognitive architecture),通过这些组件可以实现许多这样的架构。

2.3 组件

Agent 架构中有三个核心组件:

2.3.1 模型(model)

这里指的是用作 Agent 中用来做核心决策的语言模型(LM)。

  • 可以是一个或多个任何大小的模型,能够遵循基于指令的推理和逻辑框架,如 ReAct、Chain-of-Thought、Tree-of-Thoughts。
  • 可以是通用的、多模态的,或根据特定 Agent 架构的需求微调得到的模型。
  • 可以通过"能展示 Agent 能力的例子或数据集"来进一步微调模型,例如 Agent 在什么上下文中使用什么工具,或者执行什么推理步骤。

2.3.2 工具(tool)

基础模型在文本和图像生成方面非常强大,但无法与外部世界直接交互。工具是模型通往现实世界的桥梁,使 Agent 能够:

  • 访问实时信息(如天气、新闻、股票价格)
  • 执行计算(如数学计算、代码执行)
  • 与外部系统交互(如数据库、API、设备)
  • 处理文件和数据

2.3.3 编排层(orchestration)

编排层负责协调模型和工具的交互,管理 Agent 的执行流程:

  • 记忆模块:存储和检索历史信息,保持上下文连贯性
  • 规划模块:制定任务执行计划,分解复杂任务
  • 执行模块:协调工具使用和结果处理
  • 学习模块:从经验中学习,改进未来的决策

2.4 Agent 与 model 的区别

特性大语言模型Agent
响应方式被动响应,基于输入生成输出主动规划,能够自主决策
工具使用无法直接使用外部工具能够使用外部工具扩展能力
上下文处理依赖上下文窗口,有限制可以使用外部记忆,突破上下文限制
任务完成一次性生成,缺乏连续性多步骤执行,持续与环境交互
适应性固定能力,难以适应新任务能够通过工具和学习适应新任务

2.5 常见的 Agent 类型

2.5.1 反应式 Agent

  • 特点:基于当前状态直接反应,没有复杂的规划
  • 优势:响应速度快,适合简单任务
  • 应用场景:简单的问答、信息检索

2.5.2 深思熟虑的 Agent

  • 特点:会进行详细的规划和推理
  • 优势:能够处理复杂任务,决策质量高
  • 应用场景:复杂问题解决、多步骤任务

2.5.3 混合 Agent

  • 特点:结合反应式和深思熟虑的方法
  • 优势:平衡速度和准确性
  • 应用场景:大多数实际应用

2.6 Agent 的应用场景

个人助手

  • 日程管理、信息查询
  • 任务自动化、个性化建议

专业助手

  • 法律咨询、医疗诊断
  • 金融顾问、教育辅导

科研助手

  • 文献检索、实验设计
  • 数据分析、论文写作

企业应用

  • 客户服务、销售支持
  • 数据分析、流程自动化

2.7 小结

  • Agent 是扩展了大模型出厂能力的应用程序
  • Agent 由模型、工具和编排层三个核心组件组成
  • Agent 具备自主性和推理能力,能够使用工具与外部世界交互
  • Agent 比传统大语言模型更适合处理复杂任务和持续交互

现在你已经了解了 Agent 的基本概念和架构,接下来让我们深入探讨 Agent 的认知架构和工作原理。