这是一份基于最新研究论文《Budget-Aware Tool-Use Enables Effective Agent Scaling》整理的技术分享博客内容。
告别盲目搜索:预算感知(Budget-Aware)如何让 AI Agent 突破性能天花板?
导读
在推理任务中,我们已经习惯了让大模型“多想一会儿”(Scaling Test-time Compute)。但当模型化身为能够搜索、浏览网页的 Agent 时,仅仅增加“思考”是不够的,还需要增加“行动”。然而,简单地给 Agent 更多的搜索机会,它就真的能变强吗?
Google 的最新研究发现:缺乏“预算意识”的 Agent 很快就会陷入性能瓶颈。 即使你给它 100 次搜索机会,它可能在第 10 次就草草收场。为了解决这个问题,研究者提出了 Budget Tracker 和 BATS 框架,让 Agent 学会“看菜吃饭”。
1. 研究背景:Agent 缩放的新维度
在大语言模型(LLM)领域,通过增加测试时计算量(Test-time Scaling)来提升性能已成共识 。对于工具增强型 Agent 而言,这种缩放包含两个维度 :
- 思考(Thinking): 消耗 Token 进行内部推理。
- 行动(Acting): 通过工具调用(如搜索、API)与外部环境交互。
工具调用的次数直接决定了 Agent 探索环境的广度与深度 。但在实际应用中,搜索 API 是要花钱的,Token 也是有成本的。如何平衡 “性能” 与 “成本”,是 Agent 大规模部署的关键 。
2. 针对问题:盲目的“土豪”Agent
研究人员发现,标准的 Agent(如 ReAct 架构)存在一个致命缺陷:缺乏预算感知能力(Budget Awareness) 。
- 性能天花板: 当赋予 Agent 更多工具调用配额时,它们的性能并不会持续提升,而是很快达到饱和 。
- 策略僵化: Agent 不知道自己还有多少“余粮”,无论预算多寡,都采用同一套搜索逻辑。在预算充足时搜索得太浅,在预算紧缺时又显得太浪费 。
- 成本黑盒: 缺乏一个统一的度量衡来计算 Token 和工具调用的综合经济成本 。
3. 核心方案:从 Budget Tracker 到 BATS
为了让 Agent 能够战略性地使用资源,研究团队提出了两套方案:
方案一:Budget Tracker(轻量级插件)
这是一个“插拔式”的 Prompt 模块 。它在每一轮交互时,都会在 Prompt 中明确告诉 Agent 当前的预算状态 :
- 实时反馈: 显示每种工具已使用多少次、还剩多少次 。
- 行为引导: 在初始阶段提供策略建议(如:预算充足时尝试多角度搜索;预算不足时精准一击) 。
方案二:BATS(高级自适应框架)
BATS (Budget Aware Test-time Scaling) 是一个更进阶的框架,它将预算意识融入了 Agent 的全生命周期 :
- 预算感知型规划: Agent 会根据剩余预算动态调整计划,决定是“深挖”某个线索,还是“转向”其他路径 。
- 自适应验证(Self-verification): 当 Agent 得到一个答案时,它会结合剩余预算决定是否满意。如果预算还多,它会选择
CONTINUE(深入探索);如果发现当前路径死胡同且预算尚存,它会选择PIVOT(转换思路) 。 - 上下文压缩: 为了节省 Token 成本,BATS 会定期将冗长的原始轨迹总结为精简摘要 。
4. 实验结论:更聪明,也更省钱
研究在 BrowseComp(复杂搜索)、BrowseComp-ZH(中文环境)和 HLE-Search 等挑战性数据集上进行了测试 :
- 性能提升: 在相同的预算(100 次工具调用)下,使用 Gemini-2.5-Pro 的 BATS 在 BrowseComp 上达到了 24.6% 的准确率,远超标准 ReAct 的 12.6% 。
- 高效率: 在达到相同准确率的情况下,Budget Tracker 相比 ReAct 能减少约 40.4% 的搜索调用和 31.3% 的总成本 。
- 持续缩放: 传统的 ReAct 在预算超过 100 后性能就不再增长,而具备预算感知的模型则能随着预算增加持续进化 。
5. 核心创新点
- 首个系统性研究: 第一次正式定义了受限预算下的 Agent 测试时缩放问题,并提出了统一的成本度量公式(Token 成本 + 工具成本) 。
- 动态自适应策略: 改变了以往“固定逻辑”的 Agent 运作模式,让模型能够根据“财务状况”动态调整其验证和决策阈值 。
- 免微调(Training-free): 所有的提升完全基于 Prompt 工程和框架设计,不需要对大模型进行昂贵的二次训练 。
6. 总结与反思
积极影响
-
落地实用性: 为企业部署 Agent 提供了明确的资源管理思路,让 AI 的运行成本变得可控且透明 。
-
缩放新路径: 证明了除了增加 Token 数量,优化工具调用的策略是 Agent 性能增长的另一条“高速公路” 。
不足与局限
- 维度单一: 目前主要关注工具调用次数。现实中可能涉及更复杂的资源约束,如 Token 长度限制、推理延迟限制等 。
- 资源预估精度: 模型有时会低估自己的资源消耗,如何让 Agent 更精准地预测“这笔搜索花得值不值”仍是挑战。
- 上下文管理: 虽然有摘要机制,但在极端超长任务中,如何在上下文长度与信息留存之间取得完美平衡仍需探索。