CUA- Computer Use开源平替

我和许多人一样，看到了OpenAI展示他们Operator实现的计算机演示。让我兴奋的是，Operator使用了一个CUA模型，计算机使用智能体（CUA）模型。

这是模型多模态能力如何通过视觉和在浏览器内解释GUI而不断扩展的一个很好的例子。

目前我没有访问Operator的权限，但想基于CUA模型构建一个演示应用程序，在那里我问一个简单的问题，AI智能体就会打开浏览器来寻找答案。

计算机使用工具和模型可以通过Responses API访问。

本质上，CUA模型会检查计算机界面的屏幕截图并建议要采取的操作。

更准确地说，它会发出带有指令的computer_call，例如click(x,y)或type(text)，然后你必须在你的环境中执行这些操作，然后提供结果的屏幕截图。

在这个视频中，我让AI智能体获取开普敦、达累斯萨拉姆的天气，以及查看苹果股价……

考虑到上面的图片，以下是如何以简单的步骤将计算机使用工具添加到你的应用程序中：

用户向模型发送请求 (1)，(2)在工具列表中包含计算机工具，同时包含显示大小和环境详细信息。你可以在第一个请求中附加起始状态的屏幕截图。

获取模型的响应， (3)在回复中查找任何computer_call项目。这些建议操作如(4) 点击、输入、滚动或等待，以向目标前进。

执行操作， (5)使用代码在计算机或浏览器(6)上执行建议的操作。

拍摄新的屏幕截图， (7)在操作后，将更新后的环境捕获为屏幕截图。

重复：发送一个包含更新后屏幕截图的新请求作为 (7回到1) computer_call_output，然后继续，直到模型停止建议操作或你选择停止。

再次强调，在MacBook上，你可以使用终端应用程序执行所有任务……

从终端命令行，创建一个虚拟环境……我将虚拟环境命名为cua。

python3 -m venv cua

然后激活虚拟环境……

source cua/bin/activate

你会看到命令行提示符发生了变化，显示你现在处于虚拟环境中。

从GitHub克隆OpenAI演示项目……

git clone https://github.com/openai/openai-cua-sample-ap

输入命令后，系统会提示你输入GitHub用户名，然后输入密码。

对于密码，你需要输入在GitHub用户设置中找到的访问令牌。在这里阅读更多：

你会看到创建了一个新文件夹，如下所示，包含文件和文件结构。

运行下面的命令来安装所有需求……

pip install -r requirements.txt

为你的OpenAI API密钥创建一个环境变量……

export OPENAI_API_KEY=<your secret key>

最后，使用下面的命令运行AI智能体……

python3 cli.py --computer local-playwright

你会看到提示符发生变化，并打开一个浏览器，现在你可以通过命令行与AI智能体对话。不需要浏览器交互……

下面，你可以看到我问AI智能体一个关于天气的问题……

你可以看到浏览智能体如何与浏览器交互……

computer-use-preview-2025–03–11模型的响应在下面可见，在OpenAI仪表板中。

如果你点击其中一行，图片会显示模型的响应……

Agent类可以使用常规函数模式作为工具，在调用时返回固定值。如果你包含与你的Computer方法匹配的工具（以及所需的工具），它们将被发送给你的Computer处理。

这在屏幕截图遗漏搜索栏或返回箭头等内容时很有帮助，这些内容可能会混淆CUA模型。

汇智网翻译整理，转载请标明出处