告别盲目搜索：预算感知如何让 AI Agent 突破性能天花板 - sdk社区

这是一份基于最新研究论文《Budget-Aware Tool-Use Enables Effective Agent Scaling》整理的技术分享博客内容。

告别盲目搜索：预算感知（Budget-Aware）如何让 AI Agent 突破性能天花板？

在推理任务中，我们已经习惯了让大模型“多想一会儿”（Scaling Test-time Compute）。但当模型化身为能够搜索、浏览网页的 Agent 时，仅仅增加“思考”是不够的，还需要增加“行动”。然而，简单地给 Agent 更多的搜索机会，它就真的能变强吗？

Google 的最新研究发现：缺乏“预算意识”的 Agent 很快就会陷入性能瓶颈。 即使你给它 100 次搜索机会，它可能在第 10 次就草草收场。为了解决这个问题，研究者提出了 Budget Tracker 和 BATS 框架，让 Agent 学会“看菜吃饭”。

在大语言模型（LLM）领域，通过增加测试时计算量（Test-time Scaling）来提升性能已成共识。对于工具增强型 Agent 而言，这种缩放包含两个维度：

工具调用的次数直接决定了 Agent 探索环境的广度与深度。但在实际应用中，搜索 API 是要花钱的，Token 也是有成本的。如何平衡 “性能” 与 “成本”，是 Agent 大规模部署的关键。

研究人员发现，标准的 Agent（如 ReAct 架构）存在一个致命缺陷：缺乏预算感知能力（Budget Awareness） 。

为了让 Agent 能够战略性地使用资源，研究团队提出了两套方案：

这是一个“插拔式”的 Prompt 模块。它在每一轮交互时，都会在 Prompt 中明确告诉 Agent 当前的预算状态：

BATS (Budget Aware Test-time Scaling) 是一个更进阶的框架，它将预算意识融入了 Agent 的全生命周期：

预算感知型规划： Agent 会根据剩余预算动态调整计划，决定是“深挖”某个线索，还是“转向”其他路径。
自适应验证（Self-verification）： 当 Agent 得到一个答案时，它会结合剩余预算决定是否满意。如果预算还多，它会选择 CONTINUE（深入探索）；如果发现当前路径死胡同且预算尚存，它会选择 PIVOT（转换思路）。
上下文压缩： 为了节省 Token 成本，BATS 会定期将冗长的原始轨迹总结为精简摘要。

研究在 BrowseComp（复杂搜索）、BrowseComp-ZH（中文环境）和 HLE-Search 等挑战性数据集上进行了测试：

性能提升： 在相同的预算（100 次工具调用）下，使用 Gemini-2.5-Pro 的 BATS 在 BrowseComp 上达到了 24.6% 的准确率，远超标准 ReAct 的 12.6% 。
高效率： 在达到相同准确率的情况下，Budget Tracker 相比 ReAct 能减少约 40.4% 的搜索调用和 31.3% 的总成本。
持续缩放： 传统的 ReAct 在预算超过 100 后性能就不再增长，而具备预算感知的模型则能随着预算增加持续进化。