OPENCUA：开源计算机使用智能体（CUA）的技术突破与实践 - sdk社区

在视觉语言模型（VLM）赋能下，计算机使用智能体（CUA）已能自主完成各类电脑操作任务，成为自动化办公、智能交互的核心技术方向。但目前主流 CUA 系统的核心细节均为闭源，数据、架构、训练流程的不透明不仅限制了技术迭代，还引发了安全与可解释性的担忧。

为解决这一行业痛点，香港大学 XLANG Lab 联合 Moonshot AI、斯坦福大学等机构推出了OPENCUA—— 一套全开源的 CUA 规模化构建框架，涵盖标注基础设施、大规模数据集、高效训练流水线与高性能模型，为 CUA 研究打造了开放、可复现的技术底座。

一、OPENCUA 的核心实现路径：从数据到模型的全链路开源方案

OPENCUA 的核心目标是构建可规模化、高泛化性的 CUA 体系，其实现路径围绕数据采集 - 数据处理 - 模型训练 - 评估体系四大核心环节展开，形成了从人类操作示范到智能体自主执行的端到端解决方案。

数据采集：AGENTNET TOOL+AGENTNET 数据集，突破 CUA 数据瓶颈
CUA 的性能高度依赖真实、多样的人类操作数据，但现有开源方案缺乏跨平台、易操作的标注工具，且数据集存在领域单一、规模不足的问题。
- AGENTNET TOOL：
  
  研发跨 Windows、macOS、Ubuntu 三大系统的标注工具，可在不干扰用户操作的前提下，后台实时捕获屏幕视频、键鼠操作信号、可访问性树（Axtree），并支持标注者对操作轨迹进行审核、编辑。工具放松了 “全正确操作” 的标注要求，允许存在合理错误，为后续模型的错误检测与恢复能力训练奠定基础。
- AGENTNET 数据集：
  
  基于标注工具收集了22.6K 开放式计算机任务轨迹，覆盖 140 + 应用、190 + 网站，平均每个任务 18.6 步，包含多应用协作、专业功能使用等复杂场景。这是首个支持桌面端、跨平台、带长推理轨迹的大规模 CUA 数据集，真实还原了个人电脑环境中的人类操作行为。
  同时，为解决线上评估成本高、复现难的问题，OPENCUA 基于数据集构建了AGENTNETBENCH离线基准，包含 100 个代表性任务，为每个步骤提供多个有效操作选项，更贴合真实场景的决策多样性，且与线上评估结果高度相关，大幅提升模型迭代效率。
数据处理：从原始操作到结构化轨迹，注入反思式长链推理
原始人类操作包含大量高频、冗余的键鼠动作（如连续鼠标移动），直接用于训练会导致模型效率低下；且单纯的 “状态 - 动作” 对难以支撑模型的复杂推理。OPENCUA 设计了两层关键处理流程：
- 动作离散化与轨迹压缩：通过动作约简将原子键鼠操作合并为高维语义动作（如将连续按键合并为文本输入、鼠标移动 + 点击合并为单次点击），并通过状态 - 动作匹配为每个动作匹配对应的屏幕关键帧，构建紧凑的「状态 - 动作」对，大幅降低训练数据的冗余度。
- 反思式长链推理（Reflective Long CoT）合成：这是 OPENCUA 的核心创新之一。
  
  在「状态 - 动作」对基础上，注入三层结构化推理逻辑：L3（上下文观察，提取屏幕关键视觉 / 文本信息）→L2（反思式推理，分析状态变化、回忆历史步骤、纠正错误、规划下一步）→L1（可执行动作，基于推理输出具体操作）。同时设计反射器 - 生成器 - 总结器流水线，让模型能识别人类操作中的错误并生成反思推理，赋予模型错误检测与恢复能力。
模型训练：多维度优化，实现数据与模型的双规模化
OPENCUA 基于主流开源视觉语言模型（Qwen2.5-VL、Kimi-VL-A3B）进行有监督微调（SFT），从上下文编码、训练数据混合、训练策略三个维度优化，让模型性能随数据规模、模型参数量实现线性提升：
- 上下文编码：采用「L1 CoT 文本历史 + 3 张截图视觉历史」的组合，在保证训练效率的前提下，为模型提供足够的历史上下文信息，支撑长程任务推理。
- 训练数据混合：融合三层 CoT 数据（L1/L2/L3）、GUI 定位数据、通用视觉语言数据，既保证模型的计算机操作能力，又提升其通用推理与指令理解能力；
- 多阶段训练策略：提供三种训练方案适配不同算力需求 —— 仅第二阶段微调（轻量适配，保留通用能力）、两阶段训练（先定位后规划，性能更优）、联合训练（构建通用 VLM+CUA 能力），让不同研究团队都能基于 OPENCUA 进行二次开发。
评估体系：多维度验证，覆盖线上执行、线下推理、GUI 定位
为全面验证模型能力，OPENCUA 构建了多维度评估体系，涵盖：
- 线上执行评估：基于 OSWorld-Verified（369 个验证后的跨平台任务）、WindowsAgentArena（154 个 Windows 专属任务），测试模型在真实环境中的端到端执行能力；
- 线下推理评估：基于 AGENTNETBENCH，测试模型的步骤决策正确性；
- GUI 定位评估：基于 OSWorld-G、ScreenSpot-Pro、UI-Vision 等基准，测试模型将自然语言指令映射为具体 GUI 操作的能力，这是 CUA 完成任务的基础。

二、OPENCUA 的核心实现效果：刷新开源 CUA 性能纪录，泛化性与可扩展性突出

基于上述技术路径，OPENCUA 推出了多参数量模型版本（7B/32B/72B），在各类 CUA 基准上取得了开源模型最优性能，并展现出优秀的泛化性、可扩展性，大幅缩小了与闭源模型的差距。

线上执行性能：OPENCUA-72B 创开源纪录，逼近闭源模型
在核心基准 OSWorld-Verified（100 步限制）上，OPENCUA-72B 达到 45.0% 的成功率，成为开源 CUA 模型的新标杆，超越此前的 UI-TARS-72B-DPO（27.1%）、Qwen3-VL（38.1%）等方案；同时其性能已逼近闭源模型 Claude 4 Sonnet（43.9%），仅落后于最新的 Claude Sonnet 4.5（61.4%），大幅缩小了开源与闭源 CUA 的性能差距。
不同参数量的 OPENCUA 模型呈现出清晰的规模效应：7B 版本达到 26.6% 的成功率，32B 版本提升至 34.8%，72B 版本进一步突破 45%，验证了训练流水线对模型参数量的良好适配性。
多维度能力领先，定位与推理双优
OPENCUA 模型不仅端到端执行能力突出，在 GUI 定位这一基础能力上也刷新了开源纪录：
- OPENCUA-72B 在 ScreenSpot-Pro（高分辨率桌面 GUI 定位）上达到 60.8% 的准确率，在 UI-Vision（专业软件复杂定位）上达到 37.3% 的准确率，均为开源模型最优；
- 32B/7B 版本也表现出竞争力，证明 OPENCUA 的训练方案可在不同参数量级下实现能力提升。
同时，在离线基准 AGENTNETBENCH 上，OPENCUA-32B 达到 79.1% 的平均成功率，远超开源基础模型（如 Qwen2.5-VL-72B 为 67.0%），甚至逼近闭源模型 OpenAI CUA（75.2%），验证了模型的推理决策能力。
优秀的泛化性与可扩展性，支撑规模化应用
- 跨域泛化：基于跨平台、多领域的 AGENTNET 数据集训练后，OPENCUA 模型在未见过的应用、网站、操作系统上仍能保持较好性能，例如在 Ubuntu 上训练的模型可迁移至 Windows，应用级知识的跨平台迁移能力突出；
- 数据规模化效应：模型性能随训练数据规模线性提升 ——Ubuntu 数据从 3K 增至 10K，模型平均性能提升 72%；Win/Mac 数据从 3K 增至 14K，性能提升 125%，且跨域数据（如 Win/Mac 数据用于 Ubuntu 任务）不会产生负迁移，反而能提升模型的通用推理能力；
- 测试时计算增益：模型在 Pass@n 评估中表现出大幅提升，OPENCUA-72B 的 Pass@3 成功率达到 53.2%（较 Pass@1 的 45.0% 提升 8.2 个百分点），说明模型存在大量优质候选操作，为后续重排序、多智能体协作等方案预留了优化空间。

三、OPENCUA 的方法优劣分析：核心优势突出，仍存可优化空间

OPENCUA 作为首个全链路开源的 CUA 框架，为行业提供了可复现、可扩展的技术底座，其方法设计的优势十分显著，但同时也存在一些现阶段的局限性，为后续研究指明了方向。

核心优势

全链路开源，解决行业透明性痛点：OPENCUA 开源了标注工具、数据集、代码、模型、评估基准全套资源，是目前最完整的 CUA 开源方案，让研究团队无需重复造轮子，可直接在其基础上进行二次创新，大幅降低 CUA 研究的准入门槛；
反思式长链推理，赋予模型错误恢复能力：相较于传统 CUA 仅关注 “正确操作模仿”，OPENCUA 主动利用人类操作中的错误，通过反射器合成反思推理，让模型能识别自身操作错误并调整规划，这是其性能超越现有方案的核心原因之一，也更贴合人类的操作逻辑；
跨平台、大规模的数据集，支撑泛化性：AGENTNET 数据集是首个覆盖三大桌面系统、多领域应用的大规模 CUA 数据集，真实还原了人类的复杂操作场景，从数据源头解决了传统模型泛化性不足的问题；
灵活的训练方案，适配不同算力需求：提供三种训练策略，兼顾轻量适配与高性能训练，无论是算力有限的小团队还是具备大规模算力的机构，都能基于 OPENCUA 构建自己的 CUA 模型，提升了框架的实用性。

现阶段局限性

数据集规模受人类标注限制：AGENTNET 数据集的 22.6K 轨迹依赖人工标注，虽然标注工具已大幅提升效率，但进一步扩大数据集仍需大量人力成本，且标注者难以覆盖所有专业领域的操作技巧（如快捷键、脚本编写）；
长程任务能力仍有不足：尽管模型具备一定的错误恢复能力，但在超过 50 步的长程任务中，性能提升有限，且容易出现操作重复、上下文丢失的问题，核心原因是模型的长程记忆与规划能力仍需加强；
高精度定位任务表现欠佳：在需要像素级精准操作的任务中（如将 “H2O” 中的 “2” 设为下标），模型的定位误差较高，这类细粒度 GUI 操作的训练数据仍较为缺乏；
环境动态性适应能力弱：模型对环境的微小变化（如系统日期、窗口位置）较为敏感，即使初始状态仅有细微差异，也可能导致最终任务失败，鲁棒性仍需提升。

四、总结与行业启示

OPENCUA 的推出，不仅刷新了开源 CUA 的性能纪录，更重要的是为行业构建了开放、可复现的 CUA 研究基础，解决了闭源体系下技术迭代慢、安全风险不可控的痛点。
其核心创新 —— 反思式长链推理、跨平台大规模数据集、灵活的多阶段训练策略，为后续 CUA 研究提供了重要的技术参考。
从行业发展来看，OPENCUA 验证了 “数据规模化 + 推理结构化” 是 CUA 能力提升的核心路径，未来的研究方向可围绕以下几点展开：

半自动化 / 自动化数据生成：结合大模型生成虚拟操作轨迹，弥补人工标注的规模与领域限制；
增强长程记忆与规划：引入记忆网络、分层规划等技术，提升模型在长程任务中的表现；
高精度 GUI 定位优化：收集细粒度定位数据，结合视觉特征增强，提升像素级操作能力；
多智能体协作：利用 OPENCUA 的 Pass@n 增益，构建多智能体协作框架，通过重排序、投票提升任务成功率。

目前，OPENCUA 的全套资源已在https://opencua.xlang.ai开源，相信这一框架将推动 CUA 研究进入更开放、更高效的新阶段，让智能体真正成为人类数字生活的可靠助手。

论文链接