2. 什么是 Agent？

2.1 概念：应用程序

宽泛地来说，生成式 AI Agent 可以被定义为一个应用程序，通过观察周围世界并使用可用的工具来实现其目标。

自主性：Agent 是有自主能力的（autonomous），只要提供了合适的目标，它们就能独立行动，无需人类干预；
推理能力：即使是模糊的人类指令，Agent 也可以推理出它接下来应该做什么，并采取行动，最终实现其目标。

在 AI 领域，Agent 是一个非常通用的概念。本文讨论的 Agent 更具体，指的是基于生成式 AI 模型能够实现的 Agents。

2.2 架构：认知架构

为了理解 Agent 的内部工作原理，我们需要看看驱动 Agent 行为、行动和决策（behavior, actions, and decision making）的基础组件。

这些组件的组合实现了一种所谓的认知架构（cognitive architecture），通过这些组件可以实现许多这样的架构。

2.3 组件

Agent 架构中有三个核心组件：

2.3.1 模型（model）

这里指的是用作 Agent 中用来做核心决策的语言模型（LM）。

可以是一个或多个任何大小的模型，能够遵循基于指令的推理和逻辑框架，如 ReAct、Chain-of-Thought、Tree-of-Thoughts。
可以是通用的、多模态的，或根据特定 Agent 架构的需求微调得到的模型。
可以通过"能展示 Agent 能力的例子或数据集"来进一步微调模型，例如 Agent 在什么上下文中使用什么工具，或者执行什么推理步骤。

2.3.2 工具（tool）

基础模型在文本和图像生成方面非常强大，但无法与外部世界直接交互。工具是模型通往现实世界的桥梁，使 Agent 能够：

访问实时信息（如天气、新闻、股票价格）
执行计算（如数学计算、代码执行）
与外部系统交互（如数据库、API、设备）
处理文件和数据

2.3.3 编排层（orchestration）

编排层负责协调模型和工具的交互，管理 Agent 的执行流程：

记忆模块：存储和检索历史信息，保持上下文连贯性
规划模块：制定任务执行计划，分解复杂任务
执行模块：协调工具使用和结果处理
学习模块：从经验中学习，改进未来的决策

2.4 Agent 与 model 的区别

特性	大语言模型	Agent
响应方式	被动响应，基于输入生成输出	主动规划，能够自主决策
工具使用	无法直接使用外部工具	能够使用外部工具扩展能力
上下文处理	依赖上下文窗口，有限制	可以使用外部记忆，突破上下文限制
任务完成	一次性生成，缺乏连续性	多步骤执行，持续与环境交互
适应性	固定能力，难以适应新任务	能够通过工具和学习适应新任务

2.5 常见的 Agent 类型

2.5.1 反应式 Agent

特点：基于当前状态直接反应，没有复杂的规划
优势：响应速度快，适合简单任务
应用场景：简单的问答、信息检索

2.5.2 深思熟虑的 Agent

特点：会进行详细的规划和推理
优势：能够处理复杂任务，决策质量高
应用场景：复杂问题解决、多步骤任务

2.5.3 混合 Agent

特点：结合反应式和深思熟虑的方法
优势：平衡速度和准确性
应用场景：大多数实际应用

2.6 Agent 的应用场景

个人助手

日程管理、信息查询
任务自动化、个性化建议

专业助手

法律咨询、医疗诊断
金融顾问、教育辅导

科研助手

文献检索、实验设计
数据分析、论文写作

企业应用

客户服务、销售支持
数据分析、流程自动化

2.7 小结

Agent 是扩展了大模型出厂能力的应用程序
Agent 由模型、工具和编排层三个核心组件组成
Agent 具备自主性和推理能力，能够使用工具与外部世界交互
Agent 比传统大语言模型更适合处理复杂任务和持续交互

现在你已经了解了 Agent 的基本概念和架构，接下来让我们深入探讨 Agent 的认知架构和工作原理。

2. 什么是 Agent？ ​

2.1 概念：应用程序 ​

2.2 架构：认知架构 ​

2.3 组件 ​

2.3.1 模型（model） ​

2.3.2 工具（tool） ​

2.3.3 编排层（orchestration） ​

2.4 Agent 与 model 的区别 ​

2.5 常见的 Agent 类型 ​

2.5.1 反应式 Agent ​

2.5.2 深思熟虑的 Agent ​

2.5.3 混合 Agent ​

2.6 Agent 的应用场景 ​

个人助手 ​

专业助手 ​

科研助手 ​

企业应用 ​

2.7 小结 ​