简单理解AI智能体

一、智能体是什么

文章的开头，先来举一个身边最简单的例子，比如字节推出的云雀是大模型，而豆包和Coze就是智能体，豆包是一个实现了对话功能的智能体，而Coze是一个可以实现工作流编排的智能体。

1986年，智能体(AIAgent、人工智能代理)的概念最早由被誉为“AI之父”的马文·明斯基(Marvin Minsky)在《意识社会》(The society of Mind)中提出。

明斯基定义的智能体的核心要素：

要素1：分布式智能体集合
要素2：层级协作机制
要素3：无中央控制

但是，明斯基对智能体的定义和现代的智能体定义有很大区别，直到2023年6月，OpenAl的元老翁丽莲在个人博客（https://lilianweng.github.io/posts/2023-06-23-agent/）中首次提出了现代AI Agent架构：智能体(AI Agent)是一种能够自主行动、感知环境、做出决策并与环境交互的计算机系统或实体，通常依赖大型语言模型作为其核心决策和处理单元，具备独立思考、调用工具去逐步完成给定目标的能力。

二、智能体的核心要素

智能体有以下核心要素：

核心要素1: 大模型(LLM)

大模型作为“大脑”: 提供推理、规划和知识理解能力，是AIAgent的决策中枢。
核心要素2: 记忆(Memory)
- 长期记忆: 可以横跨多个任务或时间周期，可存储并调用核心知识，非即时任务。可以通过模型参数微调(固化知识)，知识图谱(结构化语义网络)或向量数据库(相似性检索)方式实现。
- 短期记忆：存储单次对话周期的上下文信息，属于临时信息存储机制。受限于模型的上下文窗口长度。
核心要素3: 工具使用(Tool Use)

调用外部工具(如API、数据库)扩展能力边界。
核心要素4: 规划决策(Planning)

通过任务分解、反思与自省框架实现复杂任务处理。例如，利用思维链(chain of Thought)将目标拆解为子任务，并通过反馈优化策略。
核心要素5: 行动(Action)

实际执行决策的模块，涵盖软件接口操作(如自动订票)和物理交互(如机器人执行搬运)。比如:检索、推理、编程等。