引言

大型语言模型不仅展现出对人类语言、常识推理和知识获取的卓越理解能力，而且在复杂规划和逻辑推理方面也显示出巨大的潜力，表明它们有望发展成为自主LLM智能体。LLM智能体的应用领域日益广泛，涵盖了代码生成、数据库操作以及图形用户界面交互等领域。在这些应用中，由LLM驱动的Web智能体因其广泛的应用前景和在数字生态系统中培育真正自主智能的独特潜力而备受关注。
尽管取得了这些进展，但现有的LLM网络代理，无论其性能指标或架构范式如何，仍然欠发达。高性能的LLM网络代理主要依赖于精心制作的提示，并结合专有的LLM API来进行网页理解和操作，这既昂贵又耗时。相反，开源LLM在作为熟练的网络代理方面表现出明显的不足，这主要是由于在预训练和后训练期间缺乏以决策为中心的数据。尽管最近有人尝试通过模仿学习在开放LLM上训练网络代理，但这些方法未能充分利用网络交互固有的在线性质，并且未能产生持续、连续的改进。

挑战

作者的调查发现了这项任务固有的几个关键挑战：

训练任务不足：与离线数据集促进在人工标注的oracle轨迹上进行代理训练和评估不同，WebArena等在线基准通常只提供有限的测试集用于评估。这种预定义训练任务的匮乏严重阻碍了在这些环境中有效训练代理。
反馈信号的稀疏性和成本：在缺乏特定于任务的评估函数的情况下，评估任意web浏览任务的成功是很困难的。此外，与某些GUI数据集和中的任务不同，WebArena中的任务通常具有较长的时程，oracle解决方案平均约为10步。这一特性在在线探索期间引入了大量可用信号的稀疏性。
在线学习中的策略分布漂移：缺乏预定义的训练集需要在线探索，这不可避免地导致代理策略中的分布漂移。这种现象很可能导致灾难性遗忘和性能随时间下降。

研究方法

课程学习的自进化新指令

在WebArena中训练LLM网络代理的一个典型挑战是训练任务的稀缺性，这与开发真实世界网络代理的情况产生共鸣。尽管最近的工作为WebArena整理了一个轨迹微调集，但它只包含大约1k个带有oracle轨迹的指令，远不足以训练强大的LLM网络代理。为了解决这个限制并推动持续改进，作者采用了一种自我演进的课程学习策略。这种方法在每个阶段都会生成新的训练指令。随着阶段的进展，生成的指令变得越来越复杂，从而使代理的能力逐步提高。作者实施了一个生成和过滤的两步过程，以产生难度逐渐增加的任务，同时仍然适合代理当前的 capabilities。

在生成步骤中，作者使用广度演进方法（Xu et al., 2023）来创建新的指令。作者选择模型在之前的交互阶段未能完成的指令作为生成新指令的种子。
为了确保生成的指令在目标环境中既可行又与所需的难度级别对齐，作者首先使用训练好的评论家来过滤它们。具体来说，作者使用评论家通过考虑其初始状态来评估每个新指令。作者选择评论家评分在0.05到0.75之间的指令，确保只保留符合难度标准的任务。作者手动审查生成的任务，并识别出无法在WebArena中完成的任务。基于这些发现，作者开发了一个提示，并使用GPT-4o自动排除WebArena中不可行的任务。由此产生的指令集用于本阶段的交互和训练。

在线Web环境中LLM的强化学习

在课程学习的每个阶段，模型逐步遇到并学习一组新的任务。考虑到这种设置，这里的一个主要挑战是避免在每个学习阶段出现过度的策略分布漂移，这可能导致对先前获得的知识的灾难性遗忘。传统方法通常通过混合来自不同阶段的数据来缓解这个问题。然而，在Web代理任务中，中间步骤没有获得直接的过程奖励，只有来自最终状态结果的微弱信号。因此，即使中间步骤执行正确，后续步骤中的错误也容易导致最终失败，从而导致对中间步骤的误判，使其难以重用。因此，在这项工作中，作者主要寻求算法改进，以更直接地解决策略分布漂移问题。
一个潜在的解决方案来自带有人工反馈的强化学习（RLHF）中的思想，其中两个策略之间的Kullback-Leibler（KL）散度受到约束，以减轻策略分布的漂移。通过将其应用于课程学习设置，目标是确保当前阶段的策略不会与前一阶段的策略偏差太大，同时仍然优化新任务的性能。当前阶段优化的目标可以写成如下形式：

可以将公式1的目标解释为最大熵强化学习问题。此问题的最优策略可以表示为：

基于以上两个公式，可以推导出：

基于此条件，可以将策略的损失函数表述为：

训练一个可靠的优势估计器。一个可靠的优势估计器对于有效的策略更新至关重要。作者训练一个价值网络V (st, I)，并使用广义优势估计 (GAE)来计算优势。在作者的设置中，只在最后一步收到一个二元奖励（0 或 1），没有中间奖励（即，中间奖励实际上为零）。遵循最近的方法，使用交叉熵目标训练价值网络。价值网络V的损失函数定义为：

带有Actor置信度过滤的经验回放缓冲区。除了通过KL散度在算法层面控制策略分布漂移之外，作者还实现了一个自适应回放缓冲区，以缓解数据层面的知识遗忘。具体而言，仅存储每个阶段的那些成功轨迹（可能很稀疏）在回放缓冲区中。在阶段i期间，使用上一阶段的actor来计算缓冲区中所有动作的困惑度。困惑度在1/0.95到1/0.5范围内的动作，连同其对应的状态，会被添加到当前阶段的训练数据中。此过滤过程排除了过度熟悉的数据和对于actor来说仍然过于具有挑战性的数据。此外，通过仅存储成功的轨迹，避免了为先前阶段的不正确轨迹准确估计中间状态的挑战。

实验

环境与基线

环境。WEBRL和基线方法的有效性是使用WebArena环境进行评估的。WebArena特别适合作者的需求，因为它提供了一个高度互动的平台，支持在线学习。此外，WebArena包含各种网站，包括OpenStreetMap（地图）、Reddit、GitLab、在线商店内容管理系统（CMS）和OneStopShop（OSS），使其成为全面评估模型在Web任务上的性能的理想基准。在原始的WebArena环境中，总共提供了812条指令，考虑到测试成本，作者使用WebArena-Lite中的165个测试用例进行评估。
基线。作者将WEBRL与使用提示技术的专有LLM以及使用替代方法训练的开源LLM进行比较。对于专有模型，选择GPT-4-Turbo-2024-0409 (GPT-4-Turbo) 和 GPT-4o。除了AWM和 WebPilot之外，作者还使用简单提示下模型的结果作为基线。对于开源模型，除了使用这些模型和简单提示作为基线外，作者还使用各种方法训练Llama3.1和 GLM-4-9B作为基线。具体来说，作者采用模仿学习，也称为监督微调 (SFT)，来训练这些模型。训练数据来源于公开的人工标注演示，来源于WebArena-Lite。此外，作者还探索了几种强化学习方法进行比较，包括过滤行为克隆 (Filtered BC) 、优势加权回归 (AWR) 和 DigiRL。对于WEBRL和基于强化学习的基线，作者利用SFT训练的模型作为actor的初始模型。critic类似地基于SFT训练的模型，并增加了一个随机初始化的价值头。

主要结果

作者的主要结果如表所示，表明使用WEBRL训练的Llama3.1-8B的平均准确率达到42.4%，超过了所有基线，包括提示和训练替代方案。值得注意的是，WEBRL在特定任务中表现出色，如Gitlab（46.7%）和CMS（54.3%），证明了其有效处理复杂Web任务的能力。基于强化学习的方法优于基于模仿学习的方法，包括SFT和过滤后的BC，后者往往过度重复某些动作。
此外，WEBRL始终优于DigiRL。DigiRL的一个重大限制是，它在一组预定义的固定任务上进行策略更新，这些任务可能与模型当前的技能水平不符。由于稀疏的奖励情况，其中一些任务对于模型来说尤其具有挑战性。这种不一致会导致模型收敛到次优解，并限制其探索和技能提升的能力。WEBRL通过采用自我进化的课程学习来解决这一限制，根据模型当前的能力调整任务的复杂性。这种策略促进了更广泛的探索，并支持持续改进。在GLM-4-9B的案例中也观察到了类似的现象，这证明了WEBRL的优势可以扩展到不同的模型架构，验证了其稳健性和适应性。

误差类型分布分析

作者比较了使用WEBRL训练的Llama 3.1-8B与不同错误类型（“无法恢复”、“中途卡住”、“在错误的页面停止”和“未能做出合理的尝试”）的基线方法的性能。WEBRL在减少“中途卡住”错误方面表现出显著优势，尤其是与SFT和过滤后的BC相比。“中途卡住”错误通常发生在模型陷入循环，重复执行相同的动作而没有取得进展时。强化学习通过优化每个动作，同时考虑其对任务的整体影响，来帮助缓解这个问题，使模型能够做出更有效的决策。此外，使用WEBRL训练的模型在处理“无法恢复”错误方面表现出更强的鲁棒性。
通过课程学习，模型逐渐学习如何在遇到失败时调整其行为。例如，当搜索查询“CMU附近20分钟步行距离内的药房”没有产生预期的结果时，模型学会将查询修改为“CMU附近的药房”，并再次尝试搜索，而不是重复无效的操作。此外，WEBRL在“在错误的页面停止”和“未能做出合理的尝试”错误上的错误率最低，表明使用WEBRL训练的模型对任务和网页之间的关系有更深刻的理解。它可以更好地识别完成特定任务所需的正确页面，从而减少错误地停留在错误的页面或导航到不正确的页面的可能性。

不同步数要求任务的表现

作者评估了使用WEBRL和基线方法训练的Llama3.1-8B在不同步数要求的任务上的性能。为了确定每个任务所需的步数，排除了所有模型都无法完成的任务，并将剩余任务中步数最少的轨迹作为每个任务所需的步数。可以看出，使用SFT和Filtered BC训练的模型的性能随着任务长度的增加而显著下降。这可能是因为这些模型优化的是单个步骤，而没有考虑累积效应，这使得它们在长时程任务上的效果较差。DigiRL训练的模型提高了在中等长度任务上的性能，但在较长任务（超过10步）上表现不佳。这种局限性可能源于DigiRL在固定任务集上的在线学习。即使模型正确执行了中间步骤，如果后面的步骤出现错误，它也不会收到积极的奖励，这使得模型更难学习如何有效地完成需要多个步骤的任务。相比之下，WEBRL通过课程学习克服了这个问题，逐步增加任务难度。与其他方法相比，这种方法增强了模型处理长序列的能力，从而在需要长期规划的任务上实现了显著的性能提升。

不同复杂度任务上的表现

作者进一步分析了WEBRL和基线在不同复杂程度指令下的性能，指令复杂度由任务中要求的数量衡量。例如，指令“2023年1月最畅销的前3名产品是什么”有两个要求：识别前3名产品和指定时间范围，因此其复杂度级别为2。结果表明，WEBRL在不同的复杂度级别上表现良好，尤其是在更复杂的指令中表现出色。相比之下，虽然DigiRL使用在线学习，但由于其专注于与模型能力不符的预定义任务集，限制了其适应性，因此在更高的复杂度下表现不佳。

消融研究

消融实验的结果表明，WEBRL使用的所有组件都是必不可少的。

回放缓冲区的作用。结果表明，当移除回放缓冲区时，不带回放缓冲区的WEBRL和不带KL及回放缓冲区的WEBRL的性能都会随着时间的推移而恶化。这种下降的发生是因为模型失去了对早期经验的访问，而只关注最近的数据，从而导致知识退化。
KL约束策略更新算法的作用。比较WEBRL和不带KL的WEBRL，由于采用了KL约束策略更新算法，WEBRL始终表现更好。当不使用回放缓冲区时，KL约束策略更新算法比带有价值函数基线的REINFORCE退化得更慢，因为它通过控制KL散度更好地保留了过去的知识。相比之下，带有价值函数基线的REINFORCE会迅速过拟合当前阶段的数据，并且始终低于其初始值。
自进化课程学习策略的作用。当将WEBRL与不带CL的WEBRL进行比较时，由于在线学习，两者都表现出总体上升的趋势。然而，不带CL的WEBRL进展较慢，并且达到较低的性能上限，因为它在固定的任务框架内运行，而WEBRL生成适应其不断发展的能力的新任务。

ORM评估

在WEBRL框架中，持续改进在很大程度上取决于ORM的有效性，ORM在评估交互轨迹以指导智能体的学习过程中起着至关重要的作用。为了评估ORM的有效性，作者将它的性能与几个基线模型进行比较，包括使用与ORM相同输入的GPT-4-Turbo、Captioner + GPT-4-Turbo以及GPT-4V，两者都使用与Pan等人相同的提示。作者评估了ORM和基线模型在两个数据集上的表现：WebArena-Lite测试集和100个手动标记的抽样rollout。对于WebArena-Lite测试数据，作者使用其奖励函数输出作为标签。表中的结果表明，虽然基线模型始终能达到略高于70%的准确率，但作者的ORM超过了它们，准确率约为80%。

结论

在这项工作中，作者提出了WEBRL，一种新颖的自进化在线课程强化学习框架，用于训练基于LLM的Web代理。通过解决包括训练任务稀缺、反馈信号稀疏和策略分布漂移等关键挑战，WEBRL能够在WebArena等在线环境中持续且一致地提高代理性能。作者的方法展示了显著的性能提升，大大超过了现有的最先进的Web代理和专有LLM API。这些结果突出了WEBRL在提升开源LLM在基于Web的任务中的能力方面的有效性。

WEBRL：通过自演化在线课程强化学习训练LLM Web代理

引言

挑战