原创

论文阅读：Agent-S 系列

发布于 2025-10-14 阅读 99

人工智能

原创

Agent S 是什么

Agent S 目的是打造一个类人的操作计算机的 Agent 架构，旨在通过图形用户界面 GUI 实现对复杂多部任务的自动化执行，从而彻底改变人类交互方式；
Agent S 的开源项目地址： https://github.com/simular-ai/Agent-S

Agent S 论文系列

Agent S1

发布时间: 2024年10月10日
论文地址：https://arxiv.org/abs/2410.08164
解决的关键挑战：
– 获取领域特定知识（Acquiring domain-specific knowledge）
– 长周期任务规划（Planning over long task horizons）
– 处理动态且非统一的界面（Handling dynamic, non-uniform interfaces）

Agent S1 核心思想

经验增强型分层规划（Experience-Augmented Hierarchical Planning）：结合了外部知识检索与内部经验回放，可以显著提升任务成功率。

1. 分层任务分解

将复杂任务逐级拆解为可执行的子任务。
支持多时间尺度的动态调整，可基于运行时环境变化更改。

2. 经验增强机制

外部知识搜索：当遇到未知领域（如专业术语、网站功能），调用搜索引擎（如 perplexity）或知识库补充信息。
内部经验检索：从历史的成功轨迹中提取相似案例，进行类比推理与策略复用。
实现“边做边学”，提升在新任务上的泛化能力。

3. Agent-Computer Interface (ACI)

提出一种新型接口设计 ACI，专门用于激发基于多模态大语言模型（MLLMs）的 GUI 智能体的推理与控制能力。
优化视觉-语言的对齐，使智能体更准确理解屏幕内容并生成合理操作指令（如点击、输入、拖拽）。

Agent S2

发布时间：2025年4月1日
论文地址：https://arxiv.org/abs/2504.00906
解决的关键挑战：
– GUI元素定位不准（Imprecise grounding of GUI elements）
– 长周期任务规划困难（Long-horizon task planning）
– 依赖单一通用模型导致性能瓶颈（Performance bottlenecks from single generalist models）

Agent S2 核心思想

将认知任务在多个通才模型（Generalist）和专才模型（Specialist）之间进行分工协作，实现更高效、鲁棒的任务执行

1. 混合式定位技术（Mixture-of-Grounding）

提出一种新颖的 GUI 元素精确定位机制，结合多种视觉与语义线索，显著提升 Agent 对按钮、输入框等界面元素的识别与点击准确性，解决了传统方法中因截图模糊或布局变化导致的“误操作”问题。

2. 主动式分层规划（Proactive Hierarchical Planning）

引入多时间尺度的动态规划机制：能够根据环境反馈动态调整计划，增强应对意外情况的能力（如弹窗、验证码）。
– 高层规划：制定宏观任务目标（如“订机票”）
– 中层分解：拆解为子任务（搜索航班 → 填写乘客信息 → 支付）
– 底层执行：逐个操作界面元素

3. 通才模型-专才模型协同架构

通才模型：负责整体任务理解与高层决策。
专才模型：针对特定子任务（如文本提取、图像识别、表单填写）进行优化。
通过模块化设计，支持灵活扩展与替换不同专家模块。

Agent S3

发布时间：2025年10月2日
论文地址：https://arxiv.org/abs/2510.02250
解决的关键挑战：Computer-use Agent 在复杂、长周期任务中的不可靠性高、结果波动大

Agent S3 核心思想

提出了一种名为 Behavior Best-of-N (bBoN) 的方法：

生成多个执行路径（rollouts）：让代理并行尝试多种可能的操作序列。
行为叙事评估（behavior narratives）：用自然语言描述每条执行路径的行为过程。
基于叙述的选择机制：利用这些行为描述对不同路径进行筛选，选择最优轨迹。
这种方法实现了广泛的探索能力与有原则的路径选择之间的平衡，显著提升了系统的鲁棒性和成功率。

意义与演进路径

演进关系：
– Agent-S1: 初代框架，强调经验驱动与分层规划
– Agent-S2: 升级版，引入通才-专才协同与混合定位技术
– Agent-S3: 并行探索+行为叙事选择，另一种扩展范式

三者共同揭示了一个趋势：未来的 Computer-use Agent 不再依赖单一模型，而是走向模块化、可组合、可扩展的智能体系统。

本文章不代表SDK.CN立场，如有违规或者侵权，请联系我们及时删除。我要反馈

评论区

用户_1758497476: 0粉丝

励志做一条安静的咸鱼，从此走上人生巅峰。

0

0

4

举报