CUA- Computer Use开源平替

我和许多人一样,看到了OpenAI展示他们Operator实现的计算机演示。让我兴奋的是,Operator使用了一个CUA模型,计算机使用智能体(CUA)模型。

这是模型多模态能力如何通过视觉和在浏览器内解释GUI而不断扩展的一个很好的例子。

目前我没有访问Operator的权限,但想基于CUA模型构建一个演示应用程序,在那里我问一个简单的问题,AI智能体就会打开浏览器来寻找答案。

计算机使用工具和模型可以通过Responses API访问。

本质上,CUA模型会检查计算机界面的屏幕截图并建议要采取的操作。

更准确地说,它会发出带有指令的computer_call,例如click(x,y)或type(text),然后你必须在你的环境中执行这些操作,然后提供结果的屏幕截图。

这个视频中,我让AI智能体获取开普敦、达累斯萨拉姆的天气,以及查看苹果股价……

考虑到上面的图片,以下是如何以简单的步骤将计算机使用工具添加到你的应用程序中:

用户向模型发送请求 (1)(2)在工具列表中包含计算机工具,同时包含显示大小和环境详细信息。你可以在第一个请求中附加起始状态的屏幕截图。

获取模型的响应, (3)在回复中查找任何computer_call项目。这些建议操作如(4) 点击、输入、滚动或等待,以向目标前进。

执行操作, (5)使用代码在计算机或浏览器(6)上执行建议的操作。

拍摄新的屏幕截图, (7)在操作后,将更新后的环境捕获为屏幕截图。

重复:发送一个包含更新后屏幕截图的新请求作为 (7回到1) computer_call_output,然后继续,直到模型停止建议操作或你选择停止。

再次强调,在MacBook上,你可以使用终端应用程序执行所有任务……

从终端命令行,创建一个虚拟环境……我将虚拟环境命名为cua

python3 -m venv cua

然后激活虚拟环境……

source cua/bin/activate

你会看到命令行提示符发生了变化,显示你现在处于虚拟环境中。

从GitHub克隆OpenAI演示项目……

git clone https://github.com/openai/openai-cua-sample-ap

输入命令后,系统会提示你输入GitHub用户名,然后输入密码。

对于密码,你需要输入在GitHub用户设置中找到的访问令牌。在这里阅读更多:

Managing your personal access tokens - GitHub Docs

你会看到创建了一个新文件夹,如下所示,包含文件和文件结构。

运行下面的命令来安装所有需求……

pip install -r requirements.txt

为你的OpenAI API密钥创建一个环境变量……

export OPENAI_API_KEY=<your secret key>

最后,使用下面的命令运行AI智能体……

python3 cli.py --computer local-playwright

你会看到提示符发生变化,并打开一个浏览器,现在你可以通过命令行与AI智能体对话。不需要浏览器交互……

下面,你可以看到我问AI智能体一个关于天气的问题……

你可以看到浏览智能体如何与浏览器交互……

computer-use-preview-2025–03–11模型的响应在下面可见,在OpenAI仪表板中。

如果你点击其中一行,图片会显示模型的响应……

Agent类可以使用常规函数模式作为工具,在调用时返回固定值。如果你包含与你的Computer方法匹配的工具(以及所需的工具),它们将被发送给你的Computer处理。

这在屏幕截图遗漏搜索栏或返回箭头等内容时很有帮助,这些内容可能会混淆CUA模型。


原文链接: How To Build An OpenAI Computer-Using Agent (CUA Model)

汇智网翻译整理,转载请标明出处