登录
原创

论文阅读:Agent-S 系列

发布于 2025-10-14 阅读 99
  • 人工智能
原创

Agent S 是什么

  • Agent S 目的是打造一个类人的操作计算机的 Agent 架构,旨在通过图形用户界面 GUI 实现对复杂多部任务的自动化执行,从而彻底改变人类交互方式;
  • Agent S 的开源项目地址: https://github.com/simular-ai/Agent-S

Agent S 论文系列

Agent S1

  • 发布时间: 2024年10月10日
  • 论文地址:https://arxiv.org/abs/2410.08164
  • 解决的关键挑战:
    – 获取领域特定知识(Acquiring domain-specific knowledge)
    – 长周期任务规划(Planning over long task horizons)
    处理动态且非统一的界面(Handling dynamic, non-uniform interfaces)

Agent S1 核心思想

经验增强型分层规划(Experience-Augmented Hierarchical Planning):结合了外部知识检索与内部经验回放,可以显著提升任务成功率。

Image

1. 分层任务分解
  • 将复杂任务逐级拆解为可执行的子任务。
  • 支持多时间尺度的动态调整,可基于运行时环境变化更改。
2. 经验增强机制
  • 外部知识搜索:当遇到未知领域(如专业术语、网站功能),调用搜索引擎(如 perplexity)或知识库补充信息。
  • 内部经验检索:从历史的成功轨迹中提取相似案例,进行类比推理与策略复用。
  • 实现“边做边学”,提升在新任务上的泛化能力。
3. Agent-Computer Interface (ACI)
  • 提出一种新型接口设计 ACI,专门用于激发基于多模态大语言模型(MLLMs)的 GUI 智能体的推理与控制能力。
  • 优化视觉-语言的对齐,使智能体更准确理解屏幕内容并生成合理操作指令(如点击、输入、拖拽)。

Agent S2

  • 发布时间:2025年4月1日
  • 论文地址:https://arxiv.org/abs/2504.00906
  • 解决的关键挑战:
    GUI元素定位不准(Imprecise grounding of GUI elements)
    – 长周期任务规划困难(Long-horizon task planning)
    依赖单一通用模型导致性能瓶颈(Performance bottlenecks from single generalist models)

Agent S2 核心思想

将认知任务在多个通才模型(Generalist)和专才模型(Specialist)之间进行分工协作,实现更高效、鲁棒的任务执行

Image

1. 混合式定位技术(Mixture-of-Grounding)
  • 提出一种新颖的 GUI 元素精确定位机制,结合多种视觉与语义线索,显著提升 Agent 对按钮、输入框等界面元素的识别与点击准确性,解决了传统方法中因截图模糊或布局变化导致的“误操作”问题。
2. 主动式分层规划(Proactive Hierarchical Planning)
  • 引入多时间尺度的动态规划机制:能够根据环境反馈动态调整计划,增强应对意外情况的能力(如弹窗、验证码)。
    – 高层规划:制定宏观任务目标(如“订机票”)
    – 中层分解:拆解为子任务(搜索航班 → 填写乘客信息 → 支付)
    – 底层执行:逐个操作界面元素
3. 通才模型-专才模型协同架构
  • 通才模型:负责整体任务理解与高层决策。
  • 专才模型:针对特定子任务(如文本提取、图像识别、表单填写)进行优化。
  • 通过模块化设计,支持灵活扩展与替换不同专家模块。

Agent S3

  • 发布时间:2025年10月2日
  • 论文地址:https://arxiv.org/abs/2510.02250
  • 解决的关键挑战:Computer-use Agent 在复杂、长周期任务中的不可靠性高、结果波动大

Agent S3 核心思想

提出了一种名为 Behavior Best-of-N (bBoN) 的方法:

  1. 生成多个执行路径(rollouts):让代理并行尝试多种可能的操作序列。
  2. 行为叙事评估(behavior narratives):用自然语言描述每条执行路径的行为过程。
  3. 基于叙述的选择机制:利用这些行为描述对不同路径进行筛选,选择最优轨迹。
    这种方法实现了广泛的探索能力有原则的路径选择之间的平衡,显著提升了系统的鲁棒性和成功率。

意义与演进路径

  • 演进关系
    Agent-S1: 初代框架,强调经验驱动与分层规划
    Agent-S2: 升级版,引入通才-专才协同与混合定位技术
    Agent-S3: 并行探索+行为叙事选择,另一种扩展范式

三者共同揭示了一个趋势:未来的 Computer-use Agent 不再依赖单一模型,而是走向模块化、可组合、可扩展的智能体系统。

评论区

励志做一条安静的咸鱼,从此走上人生巅峰。

0

0

4

举报