大型语言模型（LLMs）驱动的多智能体系统（MAS）在解决复杂任务方面展现出惊人的潜力。然而，如何高效地设计这些系统，特别是如何优化智能体的“提示词”和它们之间的“拓扑结构”，一直是领域内的核心挑战。论文《Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies》提出了一种Multi-Agent System Search (MASS)框架。MASS框架通过一种巧妙的分阶段优化策略，有效解决了MAS设计中的复杂性问题，实现了从局部智能体提示词到全局系统拓扑结构的协同优化。

MAS的挑战与MASS的诞生

近年来，随着大型语言模型能力的飞速发展，基于LLM的智能体已成为人工智能领域的热点。这些智能体不仅能够理解复杂的指令、进行逻辑推理，还能生成高质量的文本内容，从而在代码生成、数据分析、决策制定等多个领域展现出强大的应用潜力。当我们将多个LLM智能体组织起来，形成一个协同工作的“多智能体系统”（Multi-Agent System, MAS）时，其解决问题的能力往往会超越单个智能体的总和。MAS通过智能体之间的分工、协作与信息交流，能够处理更加复杂、多步骤的任务，例如多轮对话、复杂推理链构建，甚至是模拟人类社会中的辩论和协商过程。

然而，构建一个高效且鲁棒的MAS并非易事。其核心挑战主要体现在两个方面：

提示词的敏感性与优化（Prompt Sensitivity and Optimization）：每个LLM智能体的行为和性能都高度依赖于其接收到的“提示词”（Prompt）。一个微小的提示词改动，可能导致智能体行为的巨大差异，甚至性能的显著下降。在MAS中，这种敏感性问题被进一步放大。当多个智能体相互依赖、信息级联时，一个智能体的提示词缺陷可能通过系统传播，导致整个MAS的性能崩溃。传统的提示词设计往往依赖于人工经验和反复试错，效率低下且难以保证最优。
拓扑结构的复杂性与编排（Topology Complexity and Orchestration）：拓扑结构定义了MAS中智能体之间的连接方式和信息流向，例如是并行处理、串行协作，还是复杂的反馈循环。设计一个能够最大化系统性能的拓扑结构，需要考虑智能体数量、角色分配、通信机制等诸多因素。MAS的拓扑结构设计空间是组合爆炸性的，手动探索几乎不可能。尽管已有研究尝试自动化拓扑结构设计，但如何有效结合提示词优化与拓扑结构优化，仍是一个悬而未决的问题。

正是为了解决这些痛点，本文介绍的Multi-Agent System Search (MASS)框架应运而生。它提出了一种系统化、自动化的方法，通过分阶段、交错式的优化策略，同时解决提示词和拓扑结构的设计难题，从而构建出性能卓越的MAS。MASS的核心在于其对MAS设计空间的深刻理解和高效探索，为我们提供了一套全新的MAS构建范式。

MAS设计空间：提示词与拓扑结构

在深入探讨MASS框架的细节之前，我们首先需要理解多智能体系统（MAS）的设计空间。这篇论文对MAS的设计进行了精辟的分解，将其归结为两个核心层面：块级设计（Block-level Design）和工作流级编排（Workflow-level Orchestration）。这两个层面共同决定了MAS的整体性能和行为。

块级设计关注的是单个智能体的优化。想象一下MAS中的每一个智能体都是一个独立的“构建块”，它们各自承担着特定的任务或角色。在这个层面，最关键的优化目标就是为这些智能体设计出最有效的“提示词”（Prompt）。提示词不仅定义了智能体的功能（例如，“你是一个善于反思错误的专家”），还包含了指导其行为的指令（例如，“你应该一步一步地思考”）以及可选的少量示例（few-shot demonstrations），以引导智能体生成更准确、更符合预期的响应。论文强调，提示词是影响智能体下游性能的“可优化组件”中的重中之重。

工作流级编排则着眼于如何将这些经过优化的智能体构建块有效地组织起来，形成一个协同工作的系统。这涉及到“拓扑结构”（Topology）的优化，即确定MAS中智能体的类型、数量以及它们之间的连接方式和信息流。一个高效的拓扑结构能够确保信息在智能体之间顺畅传递，反馈机制有效运作，从而使整个系统能够高效地完成复杂任务。论文将MAS的设计形式化为一个优化问题：给定一个定义了所有有效配置的搜索空间，目标是找到最优的智能体配置，以最大化系统在特定任务上的性能。

MAS设计的核心挑战：在庞大的配置空间A中，找到一个最优的智能体配置a，使得在给定输入x和期望输出y的数据分布D下，MAS的工作流W能够最大化其性能f。这不仅是一个理论问题，更是实际应用中提升MAS效能的关键。

智能体的提示词设计——被低估的基石

论文通过详尽的分析和实验，有力地证明了提示词优化在MAS设计中的核心地位。尽管LLMs对提示词的敏感性已是共识，但将其系统性地应用于MAS的优化却面临诸多挑战。传统的“自动提示词优化”（Automatic Prompt Optimization, APO）方法在单轮任务中相对容易实现，但在MAS这种多智能体交互、结果级联的复杂场景下，APO的难度呈指数级增长。主要原因在于：

• 依赖性与级联效应： MAS中智能体的输出往往是另一个智能体的输入。这意味着一个智能体的提示词缺陷可能通过整个工作流传播，导致连锁反应。而且，中间输出的“真实标签”往往不可用，使得APO难以获得清晰的反馈信号。

• 组合爆炸：随着智能体数量的增加，提示词组合的可能性呈指数级增长，使得穷举搜索变得不切实际。

• 稀疏的奖励信号：在复杂的MAS中，最终任务的奖励信号可能非常稀疏，难以有效地指导每个智能体的局部提示词优化。

为了克服这些挑战，论文进行了一项关键的实验：他们比较了提示词优化与MAS中其他常见的性能提升策略（如增加智能体数量、自洽性、自反思和多智能体辩论）的效果。实验结果令人瞩目，如图所示，经过精心优化的提示词在“token效率”方面展现出显著优势。这意味着在消耗相同计算资源（token数量）的情况下，优化提示词能够带来更高的准确性。

图：Gemini 1.5 Pro 在 MATH 中对每个问题进行提示优化的代理的准确率与总标记数，与具有自我一致性 (SC)、自我完善 (reflect) 和多代理辩论 (debate) 的缩放代理进行比较。误差条表示 1 个标准差。我们的研究表明，通过更有效的提示，利用更多计算可以获得更高的准确性。

更进一步的发现是，在提示词优化后的智能体之上应用自洽性，能够进一步提升token效率的扩展性能，而其他标准方法则很快达到饱和。这一发现为MAS设计提供了宝贵的启示：在考虑扩展智能体数量或设计复杂拓扑结构之前，首先对每个智能体的提示词进行局部优化，是构建高效MAS的基石。这强调了“提示词工程”不仅仅是艺术，更是一门可以通过系统性优化来显著提升性能的科学。

工作流级搜索空间设计——结构决定效率

在块级提示词优化奠定基础之后，MAS设计的下一个关键挑战是工作流级编排，即如何构建智能体之间的拓扑结构。这不仅仅是简单地连接智能体，更是在一个巨大的设计空间中寻找最优的协作模式。论文指出，尽管许多现有研究关注于搜索“方法”（如何找到最优配置），但往往忽视了“搜索空间设计”本身的重要性——即定义了搜索算法的边界和范围。这与神经网络架构搜索（NAS）领域的发展历程异曲同工：最初关注复杂的搜索算法，后来才发现精心设计的搜索空间对最终性能同样关键，甚至更为重要。

受此启发，论文提出，手动设计的拓扑结构很可能是次优的，而自动化的拓扑结构优化（可以被视为一个严格的优化问题）能够通过审慎设计搜索空间来发挥关键作用。为此，论文定义了一个富有表现力的MAS构建块集合，这些构建块可以组合形成各种拓扑结构：

• 聚合（Aggregate）：多个智能体并行工作，各自生成预测，然后通过一个聚合操作（如多数投票或自洽性）来整合这些预测，得出最一致或最可靠的结果。这模拟了“集思广益”的过程。

• 反思（Reflect）：智能体充当“验证者”或“批评者”，对先前的预测提供反馈和改进建议。这种反馈可以迭代地输入给预测智能体或反思智能体本身，实现自我修正和性能提升。这类似于人类的“反思”过程。

• 辩论（Debate）：多个智能体围绕一个问题进行“辩论”，各自提出观点并相互质疑，最终通过论证和协商得出更真实、更全面的结论。这模拟了人类的“辩论”和“协商”过程。

• 自定义智能体（Custom Agents）：允许根据特定任务需求，插入具有特殊功能的智能体，例如用于长文本摘要或特定工具使用的智能体。

• 工具使用（Tool-use）：智能体能够调用外部工具或API来获取信息、执行计算或与外部环境交互，极大地扩展了LLM智能体的能力边界。

论文通过实验分析了不同拓扑结构对MAS性能的影响。结果表明，并非所有拓扑结构都对MAS设计有益。如图所示，在某些任务（如HotpotQA）上，只有“辩论”拓扑结构带来了显著的性能提升，而其他拓扑结构甚至可能导致性能下降。这再次强调了在MAS设计中，盲目增加复杂性或采用未经验证的拓扑结构是不可取的。相反，我们需要通过系统性的方法，在有影响力的搜索空间中进行探索，以找到真正能够提升性能的结构。

图：Gemini 1.5 Pro在HotpotQA和LiveCodeBench数据集上，不同拓扑结构的性能与基线智能体进行比较，其中每个拓扑结构都经过APO优化。Sum.（摘要）和Exe.（执行器）是针对某个任务的特定拓扑结构。该图揭示了并非所有拓扑结构都对MAS设计有积极影响，强调了选择合适拓扑结构的重要性。

综上所述，MAS的设计是一个多维度的优化问题，它不仅需要对单个智能体的提示词进行精细打磨，更需要对智能体之间的协作模式（拓扑结构）进行审慎设计和系统优化。MASS框架正是基于这些深刻洞察，提出了一种分阶段、交错式的优化策略，旨在高效地探索这个复杂的MAS设计空间。

MASS框架详解：三阶段优化策略

MASS框架将MAS优化分解为三个关联阶段：

块级提示词优化（Block-level Prompt Optimization）：这是MASS的第一阶段，也是基础阶段。其核心思想是针对MAS中的每一个“智能体模块”（Agentic Module）——例如聚合、反思、辩论、摘要或工具使用等——进行独立的提示词优化。在这个阶段，MASS会为每个模块寻找最优的指令（Instruction）和示例（Demonstration）。优化过程是迭代的，并且会利用验证集上的性能指标来指导提示词的生成。通过这种方式，确保每个智能体模块在被集成到更大的MAS之前，都具备最佳的独立性能。这一阶段的优化是“局部”的，但其效果对整个系统的性能至关重要，因为它为后续的拓扑结构优化提供了高质量的“构建块”。
工作流拓扑优化（Workflow Topology Optimization）：在第一阶段获得了优化的智能体模块提示词之后，MASS进入第二阶段：拓扑结构优化。这个阶段的目标是找到智能体模块之间最优的连接方式，即构建一个高效的MAS工作流。MASS会从一个“影响力加权的设计空间”中采样有效的配置。这意味着它不会盲目地尝试所有可能的连接，而是根据第一阶段中每个模块的性能和潜在影响力，有策略地探索那些更有可能带来性能提升的拓扑结构。这个阶段的优化是“中观”的，它关注的是智能体模块之间的协作模式，旨在发现能够最大化系统整体性能的结构。
工作流级提示词优化（Workflow-level Prompt Optimization）： MASS的第三阶段是对第二阶段发现的最佳工作流进行进一步的提示词优化。与第一阶段的局部提示词优化不同，这个阶段的优化是“全局”的，它会根据整个MAS工作流的性能，对构成该工作流的智能体模块的提示词进行微调。这种迭代优化确保了提示词与拓扑结构之间的协同效应。通过这种方式，MASS能够找到一个既拥有优化拓扑结构，又具备精细调优提示词的MAS设计，从而实现性能的最大化。

这三个阶段的优化是交错进行的，形成了一个迭代循环。这种分阶段、迭代优化的策略，使得MASS能够有效地应对MAS设计空间巨大的挑战，避免了传统方法中可能出现的局部最优问题，并最终发现性能卓越的多智能体系统。

MASS框架的这种设计理念，体现了“分而治之”的智慧。它将一个看似无从下手的复杂问题，拆解为若干个可控的子问题，并通过迭代和反馈机制，最终实现全局最优。这种方法不仅在理论上具有优雅性，在实践中也展现出强大的有效性，为MAS的设计和优化提供了新的范式。

实验结果与性能提升：MASS的卓越表现

为了全面评估MASS框架的有效性，研究人员在多个具有挑战性的任务上进行了广泛的实验，包括数学推理、问答和代码生成。这些任务涵盖了LLM智能体在不同领域的核心能力，从而能够充分验证MASS在各种场景下的性能提升。

实验结果令人印象深刻，有力地证明了MASS框架在优化多智能体系统方面的卓越能力：

• 在MATH任务上的显著提升： MASS优化后的智能体在MATH任务上展现出显著的性能优势。与仅使用自洽性（SC）、自反思（reflect）和多智能体辩论（debate）等传统扩展策略的智能体相比，MASS通过提示词优化实现了更高的准确性，并且在token效率方面表现更优。这表明，MASS不仅能提升性能，还能更高效地利用计算资源。更重要的是，在提示词优化之上叠加自洽性，能够进一步提升性能，这揭示了局部优化与全局策略相结合的强大潜力。

• 在HotpotQA和LiveCodeBench上的多样化影响： MASS在HotpotQA和LiveCodeBench等任务上的表现揭示了拓扑结构选择的重要性。在HotpotQA这类需要多跳推理和信息聚合的任务中，某些拓扑结构（如“辩论”）能够带来显著的性能提升，而另一些则可能效果不佳甚至产生负面影响。这印证了论文的核心观点：并非所有拓扑结构都对MAS设计有益，盲目增加复杂性并不可取。在LiveCodeBench这类代码生成任务中，MASS也展现了其在复杂任务上的适应性和优化能力。

• 超越现有基线：论文对比了MASS与多种现有MAS设计方法的性能。结果显示，MASS优化后的多智能体系统在所有测试任务上都显著超越了现有的基线方法，包括那些仅依赖于手动设计的提示词或拓扑结构的方法。这不仅验证了MASS框架的有效性，也凸显了其自动化、系统化优化策略的优越性。

• 对设计空间的有效探索： MASS的成功不仅仅体现在最终的性能提升上，更在于其能够高效地探索庞大的MAS设计空间。通过分阶段的优化策略，MASS能够识别出那些对系统性能影响最大的提示词和拓扑结构组合，从而避免了在无效设计上的资源浪费。这种高效的探索能力，使得研究人员和开发者能够更快地找到最优的MAS配置。

这些实验结果共同描绘了一幅清晰的图景：MASS框架提供了一种强大而通用的方法，能够系统性地优化多智能体系统。它不仅能够提升MAS在各种任务上的性能，还能够帮助我们更好地理解提示词和拓扑结构在MAS设计中的关键作用。这对于未来构建更智能、更高效的LLM驱动的MAS具有深远的意义。

构建高效MAS的设计原则：从MASS中汲取智慧

MASS框架的成功不仅仅在于提供了一个强大的优化工具，更在于其通过实验和分析，为我们揭示了构建高效多智能体系统（MAS）的关键设计原则。这些原则不仅适用于基于LLM的MAS，也为更广泛的智能体系统设计提供了宝贵的启示：

提示词优化是基石，而非事后补救：论文反复强调，对单个智能体的提示词进行精细优化是MAS性能提升的根本。这不仅仅是简单的“提示词工程”，而是一个系统性的优化过程。在MAS设计初期，就应该投入大量精力去打磨每个智能体的提示词，确保其能够准确理解任务、高效执行指令。这就像建造一座大厦，地基的牢固程度直接决定了上层建筑的稳定性。一个优秀的提示词能够显著提升智能体的“token效率”，即在消耗相同计算资源的情况下，实现更高的性能。这意味着，在考虑增加智能体数量或设计复杂拓扑结构之前，首先确保每个智能体都“聪明”且“高效”至关重要。
拓扑结构设计需审慎，并非越复杂越好： MASS的实验结果清晰地表明，并非所有拓扑结构都对MAS性能有益。盲目地增加智能体数量或引入复杂的交互模式，不仅可能无法带来性能提升，甚至可能导致性能下降。这提醒我们，拓扑结构的设计需要基于对任务的深刻理解和对智能体能力的准确评估。例如，在某些任务中，简单的并行聚合可能比复杂的辩论机制更有效。因此，在设计MAS时，应避免过度设计，优先考虑能够带来实际性能增益的简洁有效结构。
局部优化与全局协同的迭代： MASS框架最精妙之处在于其分阶段、交错式的优化策略。它首先进行局部（块级）提示词优化，然后在此基础上进行中观（工作流）拓扑优化，最后再进行全局（工作流级）提示词微调。这种迭代过程体现了系统设计的普遍规律：局部最优不等于全局最优，但局部优化是实现全局最优的基础。通过这种迭代，MASS能够捕捉到提示词与拓扑结构之间的复杂相互作用，从而实现整体性能的最大化。这对于任何复杂系统的设计都具有借鉴意义：将大问题分解为小问题，逐层优化，并通过迭代反馈机制实现整体性能的提升。
数据驱动的探索与验证： MASS框架的优化过程是高度数据驱动的。无论是提示词优化还是拓扑结构优化，都依赖于在验证集上的性能指标来指导搜索。这强调了在MAS设计中，实验和数据分析的重要性。通过严谨的实验设计和数据收集，我们可以量化不同设计选择的影响，从而做出更明智的决策。这也有助于避免陷入经验主义和直觉的误区，使MAS设计更加科学化、工程化。
可解释性与可控性：尽管MASS是一个自动化优化框架，但其分阶段的设计也为我们提供了更好的可解释性。我们可以清楚地看到每个阶段的优化目标和效果，从而理解MAS性能提升的来源。这种可解释性对于调试、改进和信任MAS至关重要。同时，通过对构建块和拓扑结构的明确定义，MASS也增强了MAS设计的可控性，使得开发者能够更好地管理和调整系统行为。

总而言之，MASS框架不仅为我们提供了一个构建高性能MAS的强大工具，更重要的是，它通过其独特的设计理念和实验验证，为我们揭示了MAS设计的深层规律。理解并应用这些原则，将有助于我们更有效地驾驭LLM的强大能力，构建出更加智能、鲁棒和高效的多智能体系统，从而在人工智能的下一个前沿领域取得突破。

结论与展望

Multi-Agent System Search (MASS)框架的提出，标志着大型语言模型（LLM）驱动的多智能体系统（MAS）设计进入了一个新的阶段。它不再仅仅依赖于人工经验和直觉，而是通过一种系统化、自动化、数据驱动的方法，高效地探索了MAS庞大而复杂的设计空间。MASS的核心贡献在于其对提示词优化和拓扑结构优化的交错式、分阶段处理，从而实现了从局部智能体性能到全局系统效能的协同提升。

通过对MASS框架的深入剖析，我们不仅看到了其在数学推理、问答和代码生成等任务上所展现出的卓越性能，更重要的是，我们从中提炼出了构建高效MAS的关键设计原则：提示词优化是基础，拓扑结构设计需审慎，局部优化与全局协同的迭代至关重要，以及数据驱动的探索与验证是不可或缺的。这些原则为未来MAS的设计和开发提供了宝贵的指导。

展望未来，MASS框架为MAS领域带来了广阔的想象空间：

• 更智能的自动化设计： MASS的成功预示着未来MAS的设计将越来越自动化和智能化。我们可以期待出现更多能够自主学习、自我优化MAS结构的工具和平台，从而大大降低MAS的开发门槛，加速其在各行各业的落地应用。

• 复杂任务的突破：随着MAS设计能力的提升，我们将能够构建出更强大、更灵活的MAS，以应对目前单智能体或传统系统难以解决的复杂问题，例如更高级别的科学发现、复杂工程设计、甚至模拟社会经济系统等。

• 人机协作的新范式： MASS也为我们思考人机协作提供了新的视角。人类专家可以专注于定义高层次的任务目标和设计约束，而MASS则负责在巨大的设计空间中寻找最优的实现方案。这种深度融合的人机协作模式，将极大地提升复杂系统的设计效率和质量。

当然，MASS框架并非终点，它也为未来的研究留下了许多开放性问题，例如如何进一步提升优化效率以应对更大规模的MAS、如何更好地处理动态环境下的MAS自适应性、以及如何将人类的领域知识更有效地融入到自动化设计流程中。但无论如何，MASS无疑为我们打开了一扇通往更智能、更强大的多智能体系统世界的大门，其深远影响值得我们持续关注和探索。

论文链接

《Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies》：https://arxiv.org/abs/2502.02533

Multi-Agent System Search (MASS)框架：智能体系统设计的革新之道