Anthropic 对 AI Agent 的定义是:由大语言模型动态指导自身流程和工具使用情况的系统,它能自主控制完成任务的方式。Google 则认为 AI Agent 是能够感知环境、进行决策和执行动作的智能实体,表现出推理、规划和记忆能力。理解这些定义是构建可靠 Agent 的第一步。

Agent 架构中有三个核心组件:模型(model)是提供核心智能的发动机;工具(tool)是模型与外部世界之间的桥梁;编排层(Harness)则是底盘、方向盘、刹车、传动系统——一套围绕 AI Agent 构建的约束、反馈与控制系统,让 Agent 在人类设定的边界内自主、可靠、可持续地工作。
Function Calling 是大模型从「纯文本生成器」迈向「智能行动者」的关键桥梁。Few-Shot 通过在输入中提供少量示例引导 LLM 完成目标任务;CoT 则引导模型通过生成中间推理步骤来分解问题。ReAct 架构将推理与行动交替进行,形成「思考-行动-观察」循环:Thought 是智能体的「内心独白」,分析当前情况并制定下一步计划;Action 是调用外部工具的具体动作;Observation 则是执行后的结果反馈。
核心交互模式包括:ReAct 交替进行推理-行动-观察循环;思维链通过逐步推理生成中间步骤;反思让 Agent 对自身输出进行自我批评和改进;结构化响应强制模型按预设格式输出。规划与推理模式有:Plan-and-Execute 先规划完整计划再逐步执行;LLM Compiler 将任务构建为 DAG,识别可并行执行的子任务。

工具(tools)是模型与外部世界之间的桥梁。MCP(Model Context Protocol)为大型语言模型和 AI 助手提供统一、标准化的接口。一个好的 Agent 不需要过多的工具——Bash 是最好的工具,Agent 会自己编写代码通过 Bash 执行。记忆系统方面,大语言模型本质上是一个「无状态」的函数,所有的「记忆」都是通过工程手段强行赋予的。短期记忆是当前会话内的上下文;长期记忆是跨会话的知识,如用户画像、历史记录、企业文档、领域知识库。
RAG(检索增强生成)用于 LLM 整合知识库,工作原理是:文档加载、文本分割、向量存储、检索、生成。基于 LangChain.js 构建 AI 智能体,使用 LangChain 不到 10 行代码就能连接到 OpenAI、Anthropic、Google 等模型。Agent Skill 将复杂的 Prompt 工程、外部知识库和执行逻辑封装为标准化的本地文件结构,采用渐进式披露机制,让 Agent 在需要时才读取相关技能。

OpenClaw—AI研究