引言

人工智能(AI)的发展史,本质上是一部人机交互范式的变革史。

I. 创世纪:作为通用文本处理 API 的大型语言模型

所有现代 AI 应用的基石,都源于一个最基础、最核心的操作:对大型语言模型(LLM)的直接、无状态调用。这个阶段对应着将 LLM 视为一个万能的文本任务接口,它构成了后续所有复杂 Agent 架构的原子单元。

核心范式:直接、无状态且任务明确

最初,也是迄今为止最普遍的 LLM 使用模式,是为执行一个离散、定义明确的任务而进行的单次 API 调用。在这种模式下,LLM 被视为一个强大的通用问题解决器,能够处理摘要、分类、翻译、内容生成等各类文本任务 1。其交互模型具有极致的简洁性:开发者通过 API 向 LLM 发送一段文本(即提示词 Prompt),LLM 处理后返回生成的文本。这种交互的直接性是其核心特征:输入和输出清晰明了,任务边界明确,使得成本和延迟都处于可控范围内 [User Query]。

这种模式的成功,很大程度上依赖于提示词工程(Prompt Engineering)的有效性。通过精心设计的提示词,开发者可以引导 LLM 的行为,以满足特定的任务需求。例如,通过引入“思维链”(Chain-of-Thought, CoT),可以显著提升模型在单次调用中处理复杂任务的能力。CoT 指示模型“一步一步地思考”,从而利用更多的计算时间将困难任务分解为更小、更简单的步骤,最终导出更准确的答案 2。

架构的简洁性与可控性

从架构角度看,单一 LLM 调用的优势在于其无与伦比的简洁性和可控性。由于每次调用都是独立的、无状态的,开发者可以精确地预测单次交互的成本(通常按 token 数量计费)和响应时间。这种确定性使其极易集成到现有的软件和服务中,而无需对底层架构进行大规模改造 4。开发者可以像调用任何其他云服务 API 一样调用 LLM,专注于业务逻辑的实现,而不必关心模型内部的复杂运作。

然而,这种简洁性也带来了根本性的局限。该范式本质上是“一次性”的,缺乏与外部世界交互的能力,也无法在多次交互之间保持记忆(除非将历史对话手动拼接到下一次的提示词中,但这会受限于模型的上下文窗口长度)。对于任何需要多步骤推理、与外部工具(如数据库、API)交互或需要长期记忆的复杂任务,单一 LLM 调用都显得力不从心。

这种模式的演进可以看作是为一种新型计算单元构建操作系统的过程。最初的 LLM API 调用,可以被视为这个新计算堆栈中的中央处理器(CPU)。它能够执行原子级的认知指令(由提示词定义),但其本身无法管理复杂的任务序列、内存或与外部设备(工具)的输入/输出。后续所有 Agent 范式的演进,无论是工作流还是自主智能体,都可以被理解为是在这个核心“认知 CPU”之上构建的、日益复杂的“操作系统”层。这些“操作系统”通过引入任务调度、内存管理和 I/O 接口等机制,来弥补单一 LLM 调用在处理复杂、动态任务时的内在缺陷。

II. 结构化自动化:LLM 赋能工作流的兴起

随着应用需求的复杂化,单一的 LLM 调用已不足以完成端到端的业务流程。为了克服这一局限,业界迎来了第一次重要的架构跃迁:将多个 LLM 调用与其他工具进行预定义的编排,形成了 LLM 赋能的工作流(Workflows)。这一阶段标志着 AI 从执行单个认知任务,转向自动化结构化的多步骤流程,是连接静态自动化与动态智能体的关键桥梁。

概念溯源:从脆弱的 RPA 到智能自动化

工作流范式的思想并非凭空产生,它继承并革新了机器人流程自动化(Robotic Process Automation, RPA)的理念。传统的 RPA 依赖于严格的、基于规则的脚本来模拟人类在图形用户界面上的操作,例如点击按钮、填写表单等 6。这种方法的致命弱点在于其“脆弱性”:一旦应用程序的界面发生微小变化,或者遇到非结构化的数据(如电子邮件正文),预设的脚本就可能失效,导致自动化流程中断,需要大量的人工维护 7。

LLM 的出现为这一困境提供了解决方案。通过将 LLM 的自然语言理解(NLU)能力融入自动化流程,系统不再仅仅依赖于固定的界面元素,而是能够理解非结构化的文本输入,并处理流程中的细微变化。这使得自动化不再是脆弱的脚本,而是具备一定认知能力的“智能自动化” 9。在这个阶段,LLM 被用来增强或自动化传统的标准作业流程(SOP, Standard Operating Procedure),其核心思想是将具体的业务任务拆解为一系列定义清晰的子任务,并按照预设的逻辑顺序或条件分支来执行 [User Query]。

架构模式:确定性的“链条”

从技术实现上看,这一范式的典型代表是早期 LangChain 框架中的“链”(Chains)概念,如 LLMChain 和 SimpleSequentialChain 11。这些框架提供了第一代被广泛采用的“胶水代码”,用于将 LLM 与提示词、其他 LLM 调用乃至简单的工具调用,按照固定的线性顺序连接起来 14。

这种架构的核心特征是其确定性:控制流是由开发者预先在代码中定义的。例如,一个用于生成市场分析报告的工作流可能被硬编码为以下步骤:意图识别 资料收集 阶段资料分析 汇总资料分析 报告产出 [User Query]。在这个链条中,前一步的输出被直接作为后一步的输入,形成一个清晰的数据流。LLM 在其中可能扮演多个角色:在第一步识别用户意图,在第三步和第四步进行数据分析,在最后一步生成报告文本。整个过程就像一条认知任务的流水线。

可预测性与灵活性的权衡

工作流范式在实践中展现了明确的价值。根据 Anthropic 公司的工程实践指南,对于那些目标清晰、步骤明确、可以被干净地分解为固定子任务的场景,工作流能够提供高度的可预测性和一致性 4。由于执行路径是固定的,其成本和延迟相对可控,也更容易调试和维护。

然而,这种范式的主要局限性在于其固有的刚性。开发者必须为每一个具体的业务场景搭建一条专属的工作流。这种“烟囱式”的开发模式,虽然能高效解决已知的、重复性的问题,却难以覆盖企业中大量存在的、非标准的“长尾”需求 [User Query]。当遇到一个全新的、流程之外的问题时,预定义的工作流便无能为力。

将工作流范式比作一条认知任务的“装配线”,可以更深刻地理解其本质。它成功地将一个复杂的脑力劳动,解构成了一系列离散、可重复的工序,每个 LLM 调用就像是装配线上的一个专门工位。这种模式对于“大规模生产”标准化的认知产品(如生成格式统一的周报)非常高效。但装配线的根本局限在于,它只能生产预设的产品。如果用户需要一个全新的、定制化的产品,整条装配线就需要重新设计和搭建。这种无法动态“重组装配线”以适应新需求的能力,正是工作流范式的核心瓶颈,也直接催生了对下一代更具自主性和灵活性的 Agent 架构的探索。

III. 自主性的萌芽:基础 Agent 架构的涌现

从预定义的“工作流”到动态的“智能体”,是 AI 架构演进中最具决定性的一步。在这一阶段,LLM 的角色发生了根本性的转变:它不再仅仅是流程中被动调用的一个工具,而是被提升为系统的“大脑”或核心推理引擎,能够自主地规划、决策和行动,以达成用户设定的高层级目标。这一时期的标志是多个基础 Agent 框架的诞生,它们共同定义了现代 AI Agent 的核心组件和运作模式。

现代 Agent 的定义:规划、记忆与工具

Lilian Weng 在其影响深远的论文中,为基于 LLM 的自主智能体系统提出了一个经典的三要素框架:Agent = 规划(Planning)+ 记忆(Memory)+ 工具使用(Tool Use) 1。这个定义至今仍是理解 Agent 系统的基石。

  • 规划(Planning):这是 Agent 智能的核心体现。它包含两个层面:首先是任务分解,即将一个宏大、模糊的目标拆解成一系列更小、更具体、可执行的子目标 2。这使得 Agent 能够处理复杂的任务,而不是被其压垮。其次是自我反思与修正,即 Agent 能够审视自己过去的行为和结果,从中吸取教训,并调整未来的计划。这种能力使 Agent 能够在试错中不断迭代,逐步优化其解决方案,从而显著提升最终结果的质量 1。规划技术也从简单的“思维链”(CoT)发展到更复杂的“思维树”(Tree of Thoughts),后者允许 Agent 在每一步探索多种推理路径,形成一个决策树,从而进行更全面的考量 1。

  • 记忆(Memory):为了实现有效的规划和行动,Agent 必须具备记忆能力。这同样分为两个层面:短期记忆,通常指在 LLM 的上下文窗口(context window)内保存的信息,使其能够在当前的交互中保持连贯性。长期记忆,则是为了克服上下文窗口的限制,通过外部存储系统(通常是向量数据库)来实现的。Agent 可以将重要的信息、经验和知识以向量嵌入(vector embeddings)的形式存入长期记忆,并在需要时通过检索增强生成(Retrieval-Augmented Generation, RAG)技术快速调用 1。这赋予了 Agent 跨越多次任务、持续学习和积累知识的能力。

  • 工具使用(Tool Use):这是 Agent 与外部世界交互的桥梁。通过调用外部 API,Agent 能够获取其自身模型权重中不包含的信息,例如实时新闻、股票价格、特定领域的专业知识库,或者执行计算、发送邮件、操作代码等具体行动。工具极大地扩展了 Agent 的能力边界,使其能够解决真实世界的问题,而不仅仅是处理文本信息。

ReAct 范式:融合推理与行动

在 Agent 早期发展中,ReAct(Reason + Act)框架的提出是一个里程碑式的创新 3。它首次将“推理”和“行动”这两个过去被分开研究的领域,在一个统一的框架内进行了协同。

ReAct 的核心是一个迭代循环:思考(Thought) 行动(Action) 观察(Observation)。

  1. 思考(Thought):面对任务,LLM 首先生成一段内部的推理轨迹,分析当前情况,评估已有信息,并制定下一步的行动计划。

  2. 行动(Action):基于思考的结果,LLM 决定调用一个具体的工具,并生成调用该工具所需的参数(例如,为搜索引擎 API 生成一个搜索关键词)。

  3. 观察(Observation):Agent 执行工具调用,并将返回的结果(例如,搜索结果的文本摘要)作为“观察”信息,反馈给 LLM。

这个循环不断重复,直到 Agent 判断任务已经完成。在每一轮循环中,Agent 都能根据外部世界的真实反馈来动态地调整其内部的思考和计划。ReAct 显著缓解了单纯使用“思维链”时常见的两大问题:事实幻觉和错误传播。当模型仅在内部进行推理时,容易产生与事实不符的“幻觉”,并且一旦推理链条中的某一步出错,这个错误很容易被带到后续步骤中,导致最终结果的失败。ReAct 通过在推理过程中频繁地与外部知识源(如维基百科 API)进行交互和验证,使其推理过程更加“接地气”,从而大大提高了结果的可靠性和可信度 16。当然如果外部信息源有问题,也会导致错误和安全问题。

多智能体协作框架的比较分析

随着 Agent 核心概念的成熟,业界涌现出多个开源框架,它们各自以不同的哲学理念来组织和协调多个 Agent 之间的协作,标志着 Agent 架构设计进入了一个“百花齐放”的阶段。

  • AutoGen:其核心协作理念是通过多智能体对话来解决问题。AutoGen 将不同的 Agent(如 AssistantAgent 和 UserProxyAgent)定义为可对话的实体。它们在一个模拟的聊天环境中通过相互“交谈”来协同工作,一个 Agent 的发言会触发另一个 Agent 的响应和行动。这种模式非常适合模拟复杂的人类团队协作,尤其是在需要反复迭代和反馈的任务中,如代码生成与调试 18。

  • CrewAI:其核心理念是基于角色的协作与任务委派。CrewAI 将协作过程形式化为一个“团队”(Crew),团队中的每个 Agent 都有明确的角色(Role)、目标(Goal)和背景故事(Backstory)。任务通过一个预定义的流程(顺序或层级)在不同角色的 Agent 之间进行委派和流转。这种架构非常适合模拟结构化的商业流程,例如一个由“研究员”、“分析师”和“报告撰写者”组成的团队来完成一份市场分析报告 21。

  • LangGraph:其核心理念是使用有状态的、可循环的图来编排 Agent。LangGraph 将 Agent 的工作流建模为一个状态图,其中节点代表一个函数或一个 Agent,边代表控制流。与早期基于有向无环图(DAG)的工作流系统相比,LangGraph 的革命性之处在于它原生支持循环(Loop)。这对于构建真正的 Agent 至关重要,因为它允许系统返回到之前的状态、重试失败的行动或根据新的信息修改计划,从而实现了真正意义上的迭代和反思 24。

  • AgentUniverse:其核心理念是通过领域特定的协作模式来组织 Agent。该框架源于蚂蚁集团在金融领域的真实业务实践,其特色是提供了一系列预定义的、可复用的协作模式,如 PEER 模式(Plan, Execute, Express, Review)。这种模式将专家的工作流程和经验固化为一个多智能体协作的模板,使得在特定领域内构建高效的 Agent 系统变得更加标准化和高效 27。

框架核心编排哲学关键架构特征理想应用场景
AutoGen对话驱动的协作将 Agent 视为可在聊天协议中交互的可对话实体。模拟复杂的人类团队动态,代码生成和调试等需要迭代反馈的任务。
CrewAI基于角色的委派在“团队”结构中明确定义 Agent 的角色、目标和背景故事。业务流程自动化,其中任务可以清晰地划分给专门的角色(如研究员、作家、分析师)。
LangGraph有状态的图执行将工作流表示为支持循环(Loops)的有状态图。构建需要复杂控制流、错误处理和动态修改计划能力的健壮、长期运行的 Agent。
AgentUniverse基于模式的协作提供基于领域专业知识的预定义协作模式(如 PEER)。企业场景,其中专家流程可以被标准化并部署为多智能体系统(如金融分析、事件解读)。

这一时期多种框架的涌现标志着该领域超越了单一的 ReAct 循环模型,开始针对不同类型的复杂问题探索专门化的协作模式。其中,LangGraph 将“Loop”作为框架的一等公民,其架构意义尤为深远。在此之前,Agent 的循环行为(如 ReAct 循环)需要开发者在应用层通过 while 循环等方式自行实现。而 LangGraph 则在框架层面原生支持了这种迭代、反思和重试的核心 Agent 行为。这标志着 Agent 框架的设计理念从“构建可以循环的工作流”演进到了“原生构建智能体”。

IV. 整合范式:通用智能体与专业化工具生态

在经历了早期 Agent 架构的“百花齐放”之后,一个更为成熟、可扩展且务实的架构范式开始浮现,即“单一通用智能体 + 标准化工具(MCPs)”模式。这种模式旨在通过一个强大的、具备自主循环能力的通用 Agent 作为核心,连接一个由标准化、可插拔的专业工具组成的庞大生态系统,从而在灵活性和可扩展性之间取得理想的平衡。

实践中的自主循环:Manus 与 Cline

两个具有代表性的应用实践,清晰地展示了单一强大 Agent 在自主循环框架下的巨大潜力。

  • Manus:作为“世界上第一个通用智能体”,Manus 的设计理念是通过一个核心的自主循环来端到端地完成复杂任务。其泄露的 agent_loop 源码清晰地揭示了一个生产级的 ReAct 循环实现,该循环包含六个明确的步骤:分析事件 选择工具 等待执行 迭代 提交结果 进入待命 29。这个循环被设计为异步执行,使得 Manus 能够自主地进行网页浏览、执行终端命令、读写文件,并在任务完成后通知用户,几乎无需人工干预 31。Manus 的架构展示了如何将一个通用的推理循环与一系列强大的内置工具(如浏览器、代码解释器)相结合,以解决开放域的复杂问题。

  • Cline:作为一款开源的 AI 编程助手,Cline 在自主循环的基础上,引入了一个更为精巧的 Plan & Act(规划与执行)架构 33。

  • 规划模式(Plan Mode):在此模式下,Agent 处于只读状态。它可以安全地浏览整个代码库,与开发者进行对话,共同制定一个详尽的实施计划,而不会对文件进行任何修改。

  • 执行模式(Act Mode):一旦开发者审查并批准了计划,Agent 便切换到执行模式,获得读写权限,并开始根据计划自主地修改代码、执行命令。这种设计巧妙地引入了一个**人机在环(Human-in-the-loop)**的关键检查点,将 Agent 强大的自主执行能力与人类的监督和控制结合起来。它在赋予 Agent 高度自主性的同时,也通过透明的规划过程和最终的执行审批权,解决了完全自主系统可能带来的安全性和可靠性问题,为 Agent 在高风险环境(如企业级软件开发)中的应用提供了可行的范本 33。

赋能技术:模型上下文协议(MCP)

要实现“一个 Agent 连接万千工具”的愿景,关键在于解决工具的集成和扩展性问题。模型上下文协议(Model Context Protocol, MCP)正是为此而生的关键技术。

  • 定义与功能:MCP 是一种开放协议,旨在标准化 AI 应用(如 Agent)与外部工具或数据源之间的交互接口 36。MCP 服务器(MCP Server)扮演着“插件”的角色,它们将各种外部能力(如调用 API、查询数据库、读写文件)封装起来,通过一个统一的、标准化的协议暴露给 Agent 38。这意味着 Agent 无需为每一个新工具编写定制化的集成代码。只要工具提供方将其能力封装成一个符合 MCP 规范的服务器,任何支持 MCP 协议的 Agent 都可以即时发现并使用它。

  • 实践案例:GitHub MCP 服务器是一个绝佳的例子。通过连接这个服务器,Agent 能够获得与 GitHub API 交互的全套能力,包括列出代码仓库、创建 issue、管理拉取请求等,而这一切都通过标准的 MCP 消息完成 38。同样,Figma 的 MCP 服务器则能让 Agent 读取设计文件中的组件、变量和布局信息,从而实现高质量的“设计到代码”自动化 41。

架构愿景:Agent 能力的“中心-辐射”模型

综合 Manus/Cline 的自主循环核心和 MCP 的标准化工具接口,一个清晰、可扩展的 Agent 架构浮现出来,即用户所提出的“OneAgent + MCPs”范式。

  • 中心(Hub):一个基于自主循环(如 Manus 的 agent_loop 或 Cline 的 Plan & Act)构建的、强大的通用宿主 Agent。这个 Agent 是系统的核心推理与决策引擎。

  • 辐射(Spokes):一个由众多专业化的 MCP 服务器组成的生态系统,它们提供特定领域的能力。在企业环境中,这可能包括一个用于操作 SAP 系统的 MCP,一个用于连接 Salesforce 的 MCP,以及一个用于查询内部知识库的 MCP 等 [User Query]。

这种“中心-辐射”架构的优势是显而易见的。它彻底解决了为每个业务场景都需“烟囱式”地开发一套定制化多智能体系统的困境。取而代之的是,企业可以集中资源投资于开发和维护一个健壮、安全的通用宿主 Agent,同时鼓励不同业务部门或第三方开发者围绕这个核心,构建和共享标准化的、可复用的 MCP 工具。这种模式具备高度的模块化、可维护性和可扩展性,使得 Agent 的能力可以像搭积木一样被不断地扩充。

这种范式转变的深层意义在于,它为 AI Agent 创造了一个类似于智能手机的“应用商店”模型。宿主 Agent 就像是 iPhone,它提供了一个强大的硬件平台和操作系统(核心推理能力)。而 MCP 协议则像是苹果的 SDK,它定义了开发者如何为这个平台构建应用。最后,海量的 MCP 服务器就是 App Store 里的各种 App。这种架构将核心推理引擎与具体的功能工具解耦,催生了一个充满活力的生态系统。未来,价值的创造将不仅仅局限于构建最强大的“上帝 Agent”,更在于构建最好的“平台”(即宿主 Agent)和最有价值的“应用”(即解决关键业务问题的 MCP)。这预示着一个新商业模式的诞生:公司可以专注于开发面向特定行业的高价值 MCP(例如,一个“彭博终端 MCP”),并将其销售给使用不同宿主 Agent 的广大用户。这标志着 Agent 领域从单一产品的竞争,演变为平台与生态系统层面的战略博弈。

V. 务实的综合:为任务选择正确的范式

随着 AI Agent 架构的不断演进,从简单的 API 调用到复杂的自主系统,一个关键的工程问题摆在了架构师面前:如何为特定的任务选择最合适的范式?一个普遍的误解是将这些演进阶段视为一个线性的、优劣分明的层级,认为最新的、最复杂的总是最好的。然而,成熟的工程实践恰恰相反:架构的选择应遵循务实原则,即在满足业务需求的前提下,选择最简单、最可控、成本效益最高的方案。

Anthropic 的工程智慧:从最简方案开始

Anthropic 公司在其《构建高效能 Agent》一文中提出的工程哲学,为这一问题提供了宝贵的指导。其核心原则是:始终从最简单的方案入手,只在确实必要时才增加复杂性 4。这意味着,在很多情况下,构建一个复杂的 Agent 系统可能并非最优解,甚至完全没有必要。

Agent 范式(无论是工作流还是自主 Agent)通常以牺牲一定的延迟和成本为代价,来换取更强的任务表现。因此,在决定采用更复杂的架构之前,必须仔细权衡这种取舍是否划算。对于许多应用场景,通过优化单次 LLM 调用(例如,结合检索增强和精心设计的上下文示例)可能已经足够解决问题,并且这种方案成本更低、速度更快、结果更可预测 5。

权衡分析与决策框架

基于这一核心原则,可以构建一个清晰的决策框架,帮助架构师根据任务特性在不同范式间进行选择:

  • 可预测性 vs. 灵活性:这是最核心的权衡点。

  • 如果任务是定义明确、流程固定、可重复执行的,例如处理标准化的报销申请,那么**工作流(Workflow)**范式是最佳选择。它的确定性路径保证了结果的一致性和可预测性 4。

  • 如果任务是开放式的、动态变化的、解决方案路径未知的,例如“调研竞争对手并撰写一份战略分析报告”,那么自主 Agent 范式则是必需的。只有 Agent 的灵活性和模型驱动的决策能力,才能应对这种探索性和不确定性 4。

  • 成本与延迟:

  • 单一 LLM 调用的成本和延迟最低,是处理原子级认知任务的首选。

  • 工作流由于包含多个预定步骤,成本和延迟会相应增加,但仍在可控范围内。

  • 自主 Agent 的成本和延迟最高且最不可预测。由于其在循环中可能进行多次、甚至不确定次数的 LLM 调用和工具使用,其资源消耗可能非常大。采用 Agent 范式必须有充分的理由,即其解决复杂问题的能力远超前两种范式所能带来的价值 5。

  • 任务复杂度:

  • 简单任务(如翻译一个段落):适用单一 LLM 调用。

  • 结构化多步骤任务(如新员工入职流程自动化):适用工作流。

  • 复杂、长周期、探索性任务(如进行科学研究、规划一次复杂的旅行):适用自主 Agent。

混合系统:集各家之所长

在现实世界中,最强大、最高效的 AI 系统往往是混合系统(Hybrid Systems)。这意味着不同的 Agent 范式并非相互排斥,而是可以作为可组合的构建模块,在同一个复杂应用中协同工作。

例如,一个企业级的智能客服系统可能会这样设计:

  1. 使用一个单一 LLM 调用对用户的初始请求进行快速的意图分类。

  2. 如果意图是“查询订单状态”,则触发一个预定义的工作流,该工作流依次调用内部订单系统 API、格式化结果,并生成标准化的回复。

  3. 如果意图是“我的产品坏了,我该怎么办?”,这是一个开放性问题,系统则会将任务转交给一个自主 Agent。该 Agent 可能会通过与用户对话来收集更多信息,查询产品手册数据库,搜索常见的故障排除步骤,甚至在必要时帮助用户创建维修工单。

这种混合架构充分利用了每种范式的优点:用最简单、成本最低的方式处理高频、标准化的任务,同时保留使用复杂、高成本的 Agent 来解决棘手、非标准问题的能力。

将这些范式理解为一个连续的“自主性光谱”(Spectrum of Autonomy),可以为架构师提供一个更为精妙的思维模型。光谱的一端是完全由人类指导的单一 LLM 调用,另一端是几乎完全自主的 Agent。工作流则位于光谱的中间,代表着一种半自动化的状态——步骤是自动的,但序列是人类定义的。架构师的核心工作,不再是做一个“用或不用 Agent”的二元选择,而是在这个光谱上为应用中的每一个子任务,找到最恰当的“自主性”定位点。这种思维方式能够引导设计出更高效、成本效益更高、也更可靠的 AI 系统,因为它确保了系统在每个环节都只使用“恰到好处”的复杂性和智能。

结论:迈向智能体社会

当我们从“单一通用智能体 + MCPs”这一成熟的整合范式向前展望时,一个更为宏大的图景正在展开:一个由无数专业化、自主化的 AI Agent 构成的、相互协作的“智能体社会”(Agent Society)。这不仅是技术演进的下一个逻辑步骤,更可能重塑未来的经济与社会协作模式。

下一个前沿:跨智能体的协作

一旦企业和组织内部成功构建起各自强大的、面向特定领域的 Agent(例如,一个精通财务分析的“财报 Agent”,一个擅长供应链优化的“物流 Agent”),下一个自然而然的需求便是让这些独立的 Agent 能够相互协作,共同解决超越单一领域范畴的、更为宏大的问题。用户所构想的,一个“宿主 Agent”调用一个“子 Agent”来完成特定任务的层级结构,正是这种协作模式的雏形 [User Query]。

这种协作将催生出一个复杂的 Agent 生态系统。在这个生态中,Agent 不再是孤立的执行者,而是社会化的参与者。它们能够发现彼此,协商任务,交换信息和服务,共同构成一个动态的、自组织的协作网络。一个企业的“营销 Agent”可能会自动与外部的“广告投放 Agent”协作,实时优化广告预算;一个用户的“个人旅行 Agent”可能会与航空公司的“票务 Agent”和酒店的“预订 Agent”直接谈判,以规划出最优的行程方案。

通用语的需求:智能体间(A2A)通信协议

要让这个“智能体社会”真正运转起来,一个至关重要的基础设施是标准化的通信协议,即智能体间(Agent-to-Agent, A2A)协议。正如人类社会需要共同的语言才能进行有效沟通一样,来自不同系统、不同框架、甚至不同公司的 Agent,也需要一个“通用语”(Lingua Franca)来实现发现、协商和协作 42。

目前,A2A 协议的研究和标准化正处于前沿探索阶段。诸如谷歌的 A2A 协议、IBM 的 ACP(Agent Communication Protocol)以及其他社区驱动的开放标准,都在尝试为这个新兴领域奠定基础 45。这些协议旨在定义 Agent 之间交换消息的格式、任务委托的机制、服务发现的方法以及安全认证的标准。A2A 协议层,正是构建一个全球性的、互联互通的智能体网络所需的最后一块,也是最关键的一块拼图。

A2A 协议的建立,其意义远不止于技术层面,它是在为未来的机器对机器(M2M)经济奠定基础。这可以与历史上的关键基础设施进行类比。在互联网诞生之初,存在着多个相互隔离的计算机网络。直到 TCP/IP 协议套件被标准化并广泛采用,它提供了一种通用的语言,使得任何计算机都能与另一台计算机通信,从而形成了我们今天所知的、统一的全球互联网。在此基础上,才诞生了 HTTP、SMTP 等更高层的协议,进而催生了整个数字经济。

从这个角度看,A2A 和 MCP 协议正是“Agent 时代的 TCP/IP”。

Works cited

  1. LLM Powered Autonomous Agents | Lil’Log, accessed on September 7, 2025, https://lilianweng.github.io/posts/2023-06-23-agent/

  2. LLM Powered Autonomous Agents - Pelayo Arbués, accessed on September 7, 2025, https://www.pelayoarbues.com/literature-notes/Articles/LLM-Powered-Autonomous-Agents

  3. ReAct: Synergizing Reasoning and Acting in Language Models, accessed on September 7, 2025, https://research.google/blog/react-synergizing-reasoning-and-acting-in-language-models/

  4. Learning from Anthropic about building effective agents | by MAA1 - Medium, accessed on September 7, 2025, https://maa1.medium.com/learning-from-anthropic-about-building-effective-agents-2a7469941428

  5. Building Effective AI Agents \ Anthropic, accessed on September 7, 2025, https://www.anthropic.com/engineering/building-effective-agents

  6. What is Robotic Process Automation (RPA)? - IBM, accessed on September 7, 2025, https://www.ibm.com/think/topics/rpa

  7. The Evolution of Robotic Process Automation with LLM and Agentic AI | by Bitrock - Medium, accessed on September 7, 2025, https://medium.com/@BitrockIT/the-evolution-of-robotic-process-automation-with-llm-and-agentic-ai-1422836b4329

  8. A Brief History of RPA & Automation Technology - EPSoft, accessed on September 7, 2025, https://www.epsoftinc.com/a-brief-history-of-rpa-automation-technology/

  9. The RPA Killer? How Computer-Using LLMs are Disrupting Traditional Automation, accessed on September 7, 2025, https://manashaloi.medium.com/the-rpa-killer-how-computer-using-llms-are-disrupting-traditional-automation-3c54b7f4c4d1

  10. WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models, accessed on September 7, 2025, https://arxiv.org/html/2411.05451v1

  11. What Is LangChain? | IBM, accessed on September 7, 2025, https://www.ibm.com/think/topics/langchain

  12. LangChain Explained: The Ultimate Framework for Building LLM Applications | DigitalOcean, accessed on September 7, 2025, https://www.digitalocean.com/community/conceptual-articles/langchain-framework-explained

  13. A Comprehensive Guide to Using Chains in Langchain - Analytics Vidhya, accessed on September 7, 2025, https://www.analyticsvidhya.com/blog/2023/10/a-comprehensive-guide-to-using-chains-in-langchain/

  14. LangChain Basics: Building Modular AI Pipelines with Chains & Memory - Medium, accessed on September 7, 2025, https://medium.com/@akankshasinha247/langchain-basics-building-modular-ai-pipelines-with-chains-memory-d27e249cfcba

  15. How LLM Agents are Unlocking New Possibilities - WIZ.AI, accessed on September 7, 2025, https://www.wiz.ai/how-llm-agents-are-unlocking-new-possibilities/

  16. ReAct: Synergising Reasoning and Acting in Language Models | cbarkinozer - Medium, accessed on September 7, 2025, https://medium.com/@cbarkinozer/react-synergising-reasoning-and-acting-in-language-models-79e09526ffbe

  17. ReAct: Synergizing Reasoning and Acting in Language Models - ResearchGate, accessed on September 7, 2025, https://www.researchgate.net/publication/364290390_ReAct_Synergizing_Reasoning_and_Acting_in_Language_Models

  18. Getting Started | AutoGen 0.2 - Microsoft Open Source, accessed on September 7, 2025, https://microsoft.github.io/autogen/0.2/docs/Getting-Started

  19. Exploring Microsoft’s AutoGen Framework for Agentic Workflow - Analytics Vidhya, accessed on September 7, 2025, https://www.analyticsvidhya.com/blog/2024/07/microsofts-autogen-framework-for-agentic-workflow/

  20. AutoGen 0.2 - Microsoft Open Source, accessed on September 7, 2025, https://microsoft.github.io/autogen/0.2/

  21. What is crewAI? | IBM, accessed on September 7, 2025, https://www.ibm.com/think/topics/crew-ai

  22. CrewAI: A Guide With Examples of Multi AI Agent Systems - DataCamp, accessed on September 7, 2025, https://www.datacamp.com/tutorial/crew-ai

  23. A Complete Guide to CREW AI and Agentic Frameworks: Unleashing the Power of Autonomous AI Crews | by Harsha Vanukuri | Medium, accessed on September 7, 2025, https://medium.com/@harshav.vanukuri/a-complete-guide-to-crew-ai-and-agentic-frameworks-unleashing-the-power-of-autonomous-ai-crews-9911f39110f5

  24. What is LangGraph? | IBM, accessed on September 7, 2025, https://www.ibm.com/think/topics/langgraph

  25. LangGraph: A Framework for Building Stateful Multi-Agent LLM Applications | by Ken Lin, accessed on September 7, 2025, https://medium.com/@ken_lin/langgraph-a-framework-for-building-stateful-multi-agent-llm-applications-a51d5eb68d03

  26. LangGraph Tutorial: What Is LangGraph and How to Use It? - DataCamp, accessed on September 7, 2025, https://www.datacamp.com/tutorial/langgraph-tutorial

  27. agentuniverse-ai/agentUniverse: agentUniverse is a LLM … - GitHub, accessed on September 7, 2025, https://github.com/agentuniverse-ai/agentUniverse

  28. AgentUniverse download | SourceForge.net, accessed on September 7, 2025, https://sourceforge.net/projects/agentuniverse.mirror/

  29. Manus AI: A Technical Deep Dive into China’s First Autonomous AI Agent - DEV Community, accessed on September 7, 2025, https://dev.to/sayed_ali_alkamel/manus-ai-a-technical-deep-dive-into-chinas-first-autonomous-ai-agent-30d3

  30. Manus tools and prompts · GitHub, accessed on September 7, 2025, https://gist.github.com/jlia0/db0a9695b3ca7609c9b1a08dcbf872c9

  31. Manus AI Agents: I Replaced My Entire Team With This One Tool : r/AISEOInsider - Reddit, accessed on September 7, 2025, https://www.reddit.com/r/AISEOInsider/comments/1j7qvuz/manus_ai_agents_i_replaced_my_entire_team_with/

  32. General AI Agents // Manus, Open Manus, .. | by noailabs - Medium, accessed on September 7, 2025, https://noailabs.medium.com/general-ai-agents-manus-ai-6b4223223353

  33. Cline: A Guide With 9 Practical Examples | DataCamp, accessed on September 7, 2025, https://www.datacamp.com/tutorial/cline-ai

  34. Cline - AI Coding, Open Source and Uncompromised, accessed on September 7, 2025, https://cline.bot/

  35. Cline vs AIDR vs Continue: Comparing Top AI Coding Assistants - AlgoCademy, accessed on September 7, 2025, https://algocademy.com/blog/cline-vs-aidr-vs-continue-comparing-top-ai-coding-assistants/

  36. learn.microsoft.com, accessed on September 7, 2025, https://learn.microsoft.com/en-us/microsoft-copilot-studio/agent-extend-action-mcp#:~:text=Model%20Context%20Protocol%20(MCP)%20allows,API%20responses%20or%20file%20contents)

  37. Get started with .NET AI and MCP - Microsoft Learn, accessed on September 7, 2025, https://learn.microsoft.com/en-us/dotnet/ai/get-started-mcp

  38. Getting Started with MCP Servers for Copilot - Copilot That Jawn, accessed on September 7, 2025, https://copilotthatjawn.com/tips/copilot-mcp-integration.md

  39. Use MCP servers in VS Code, accessed on September 7, 2025, https://code.visualstudio.com/docs/copilot/customization/mcp-servers

  40. Using the GitHub MCP Server, accessed on September 7, 2025, https://docs.github.com/en/copilot/how-tos/provide-context/use-mcp/use-the-github-mcp-server

  41. Guide to the Dev Mode MCP Server - Figma Help Center, accessed on September 7, 2025, https://help.figma.com/hc/en-us/articles/32132100833559-Guide-to-the-Dev-Mode-MCP-Server

  42. 10 Modern AI Agent Protocols: Standardizing AI Communication in 2025 : r/AgentsOfAI, accessed on September 7, 2025, https://www.reddit.com/r/AgentsOfAI/comments/1mfchfo/10_modern_ai_agent_protocols_standardizing_ai/

  43. The Future of AI: The Power of Agent-to-Agent - Workday Blog, accessed on September 7, 2025, https://blog.workday.com/en-us/agent-to-agent-overview.html

  44. What Are AI Agent Protocols? - IBM, accessed on September 7, 2025, https://www.ibm.com/think/topics/ai-agent-protocols

  45. The Future of AI Agent Communication with ACP | Towards Data Science, accessed on September 7, 2025, https://towardsdatascience.com/the-future-of-ai-agent-communication-with-acp/

  46. Exploring AI Agent Communication Protocols for Scalable Systems - SSOJet, accessed on September 7, 2025, https://ssojet.com/news/exploring-ai-agent-communication-protocols-for-scalable-systems

  47. The Future of Agent Communication: From Protocol Proliferation to Spatial Web Convergence, accessed on September 7, 2025, https://deniseholt.us/the-future-of-agent-communication-from-protocol-proliferation-to-spatial-web-convergence/

**