引言

包括大型语言模型和大型多模态模型在内的基础模型，因其卓越的语言理解和生成能力而受到广泛关注。通过在互联网规模的语料库上进行广泛的自监督预训练，这些模型不仅获得了知识和语言能力，还获得了类人的推理和规划能力，从而产生了作为代理的LLM。
然而，GUI基础代理的开发面临一个关键挑战：现有预训练集中决策数据的稀缺性。虽然互联网包含大量人类知识，但它主要由静态信息组成，不足以捕捉人类的决策和环境交互。构建有能力的基础代理需要用动态知识来丰富它们，无论是通过与真实世界的环境直接交互，还是通过从合成轨迹中学习。这样的基础代理随后可以在数字世界中自我进化，迭代改进以实现真正的通用智能。
更为重要的是，这些系统的开发必须以渐进式的用户部署为指导思想。自主代理旨在增强而非取代人类的能力。用户部署具有双重目的：一方面，教会代理如何有效地辅助人类；另一方面，使人类适应智能助手。这种方法还使研究人员能够在开发过程中系统地理解、发现和检验自主基础代理的潜在益处和风险。

主要技术与见解

主要技术

预训练。通常互联网文本语料库中与智能体相关的数据很少，导致大型语言模型无法有效地充当智能体。此外，现有的多模态语言模型预训练主要集中于“视觉指令微调”，对文本和图像之间的对齐进行建模，而没有充分学习来自序列多模态数据。因此，在预训练中正确利用现有的带有弱监督决策信号的在线数据实际上会有所帮助。此外，对于多模态感知，高分辨率视觉输入非常重要，尤其是在使用诸如Set-of-Marks (SoM)提示之类的基础策略时。
大型多模态模型对于 GUI 理解和操作至关重要。传统上，在机器人流程自动化中，范式是使用光学字符识别捕捉器来匹配人工手工自动化程序中的关键元素，这种方法无法扩展和推广。相反，LMMs可以进行模糊匹配，然而LMMs仍然需要大量的训练才能获得执行代理任务所需的强大规划和推理能力。
行为克隆（监督式微调）。行为克隆是一种关键策略，用于从头开始使用高质量的专家轨迹训练智能体。该策略也已被验证对基于LLM和LMM的智能体训练有效。然而，收集专家轨迹的成本和时间非常高昂。此外，使用BC的一个根本问题是，智能体只能逐步学习模仿专家的行为，而不能完全理解其目标。当专家轨迹是完美的（通常是为了保持训练稳定性），智能体无法培养从错误中恢复的能力。
课程学习。智能体任务通常具有显著不同的难度。因此，明智的做法是通过课程表逐步增加训练难度，该策略对于构建具有复杂目标达成能力的通用智能体非常有用。
奖励建模 。为了使基础智能体能够进行在线强化学习，一个合适的奖励模型对于提供监督是必要的。基于大型语言模型和大型多模态模型的基础智能体，其目标是在开放世界中完成通用任务，这与特定任务奖励函数的能力相矛盾。因此，构建能够处理各种现实世界智能体任务的通用奖励模型至关重要。
强化学习。与 BC 相比，狭义上的 RL 可以更好地从失败中学习。这对于基础智能体训练尤为重要，因为高质量的专家轨迹非常难以获取。然而，将 RL 应用于基础智能体训练的挑战在于环境中的采样效率低下。这个问题可以从两个方面理解：
- 模拟器：当智能体在 Web 或 Android 环境中探索时，它们的效率受到互联网连接速度和最大并行度的限制。像 Android 虚拟设备这样的环境非常消耗内存。
- 样本多样性：LLM 和 LMM 被训练来输出基于特定功能的动作。严格的功能格式通常需要对模型进行过拟合训练，即使在高温度下进行推理，也会导致顽固的单调采样结果。

洞察 1：中间接口设计

在开发过程中，作者发现中间接口设计对于解耦基础代理中规划和执行的行为至关重要。通过将它们分离成不同的模块，可以从灵活性和准确性两个维度改进基础代理，而不会产生干扰。

洞察 2：自演化在线课程强化学习

虽然中间接口设计有助于缓解不准确接地的的问题，但规划仍然是一个问题。由于缺乏足够的用户任务或专家轨迹，这非常具有挑战性。作者开发了一个自进化的在线课程强化学习框架——WebRL——用于从头开始训练基础智能体。以WebArena环境为例，作者采用演员-评论员强化学习框架进行训练。简而言之，作者确定了将课程强化学习应用于该问题时最困难的问题——任务数据稀缺和策略分布漂移。

任务数据稀缺。利用VisualAgentBench提供的公元前1000年左右的数据，作者将GLM-4-9B初始化为22.4%的SR，此时任务指令或oracle轨迹已经耗尽。因此，作者应用自进化技术在在线部署期间，使用一些技巧来扩充失败的任务指令，通过修改指令使其更复杂或更简单。这些自演化的指令会通过评论者的筛选，然后在下一个迭代训练阶段用于部署。
策略分布漂移。课程学习的一个重要问题是在渐进式课程安排中出现的策略分布漂移。作者开发了一种KL约束的策略更新方法用于智能体训练，并结合了actor置信度过滤的经验回放。消融研究表明，这些设计对于迭代训练期间性能的持续提升是不可或缺的。

结果

VAB-WebArena-Lite。VAB-WebArena-Lite1 是原始 812 个任务的 WebArena的一个精简子集，包含 165 个任务，并对答案和判断函数进行了手动验证。其设计意图是加速 WebArena 上的评估并确保判断的正确性。坐着评估了具有代表性的专有 LLM/LMM API、开源模型、最近的代理框架和 AUTOGLM。

OpenTable 评估。继Agent Q之后，作者在真实的 OpenTable 网站上评估 AUTOGLM，该网站提供在线开放预订服务。由于的测试集未公开，作者根据其论文中提供的示例（“在 OpenTable 上为 Cecconi’s 餐厅预订 4 人于 2024 年 5 月 22 日晚上 7:00 的预订”）重建了一个 200 个样本的测试集，并在真实的 OpenTable 网站上进行人工评估。。AUTOGLM 在这个真实的网站上优于 gpt-4o 和 Agent Q。

AndroidLab(VAB-Mobile)。AndroidLab 是一个交互式的 Android 基准测试和开发环境，支持可复现的评估，涵盖系统和一些可离线部署的英语 APP。与 AITW等现有基准测试相比，其交互性允许对 Android 基础代理进行更实用的评估，并通过 RL 进行改进。作者评估了具有代表性的专有 LLM/LMM API、在提供的 BC 数据上微调的开放模型以及 AUTOGLM。。AUTOGLM 实现了 36.2% 的 SR，是所有比较代理中表现最好的。

对中文安卓应用程序进行人工评估。为了测试 AUTOGLM 部署给公共用户的实用性，作者仔细检查了它在7个常见的中文安卓应用程序中的常见任务，包括微信、美团、淘宝、大众点评、高德地图、小红书和12306。

结论

作者在文中介绍了AUTOGLM，这是一系列基于ChatGLM模型家族构建的基础智能体，它在Web浏览和Android环境中的GUI操作方面表现出强大的能力。作者的主要贡献包括设计了一个有效解耦规划和执行行为的中间接口，以及开发了一种自我进化的在线课程强化学习方法，该方法能够实现强大的错误恢复和性能改进。在各种基准测试中取得的强大实证结果，包括在VABWebArena-Lite上达到55.2%的成功率，在AndroidLab上达到36.2%的成功率，以及通过浏览器插件和Android应用程序成功实现的实际部署，都证明了AUTOGLM作为开发用于GUI交互的实用基础智能体的重要一步的潜力。

AutoGLM：用于GUI的自主基础代理

引言

主要技术与见解

主要技术

洞察 1：中间接口设计

洞察 2：自演化在线课程强化学习

结果

结论

相关内容