CUA- Computer Use开源平替
我和许多人一样,看到了OpenAI展示他们Operator实现的计算机演示。让我兴奋的是,Operator使用了一个CUA模型,计算机使用智能体(CUA)模型。
这是模型多模态能力如何通过视觉和在浏览器内解释GUI而不断扩展的一个很好的例子。
目前我没有访问Operator的权限,但想基于CUA模型构建一个演示应用程序,在那里我问一个简单的问题,AI智能体就会打开浏览器来寻找答案。
计算机使用工具和模型可以通过Responses API访问。
本质上,CUA模型会检查计算机界面的屏幕截图并建议要采取的操作。
更准确地说,它会发出带有指令的computer_call,例如click(x,y)或type(text),然后你必须在你的环境中执行这些操作,然后提供结果的屏幕截图。
在这个视频中,我让AI智能体获取开普敦、达累斯萨拉姆的天气,以及查看苹果股价……
考虑到上面的图片,以下是如何以简单的步骤将计算机使用工具添加到你的应用程序中:
用户向模型发送请求 (1),(2)在工具列表中包含计算机工具,同时包含显示大小和环境详细信息。你可以在第一个请求中附加起始状态的屏幕截图。
获取模型的响应, (3)在回复中查找任何computer_call项目。这些建议操作如(4) 点击、输入、滚动或等待,以向目标前进。
执行操作, (5)使用代码在计算机或浏览器(6)上执行建议的操作。
拍摄新的屏幕截图, (7)在操作后,将更新后的环境捕获为屏幕截图。
重复:发送一个包含更新后屏幕截图的新请求作为 (7回到1) computer_call_output,然后继续,直到模型停止建议操作或你选择停止。
再次强调,在MacBook上,你可以使用终端应用程序执行所有任务……
从终端命令行,创建一个虚拟环境……我将虚拟环境命名为cua。
python3 -m venv cua
然后激活虚拟环境……
source cua/bin/activate
你会看到命令行提示符发生了变化,显示你现在处于虚拟环境中。
从GitHub克隆OpenAI演示项目……
git clone https://github.com/openai/openai-cua-sample-ap
输入命令后,系统会提示你输入GitHub用户名,然后输入密码。
对于密码,你需要输入在GitHub用户设置中找到的访问令牌。在这里阅读更多:
Managing your personal access tokens - GitHub Docs
你会看到创建了一个新文件夹,如下所示,包含文件和文件结构。
运行下面的命令来安装所有需求……
pip install -r requirements.txt
为你的OpenAI API密钥创建一个环境变量……
export OPENAI_API_KEY=<your secret key>
最后,使用下面的命令运行AI智能体……
python3 cli.py --computer local-playwright
你会看到提示符发生变化,并打开一个浏览器,现在你可以通过命令行与AI智能体对话。不需要浏览器交互……
下面,你可以看到我问AI智能体一个关于天气的问题……
你可以看到浏览智能体如何与浏览器交互……
computer-use-preview-2025–03–11模型的响应在下面可见,在OpenAI仪表板中。
如果你点击其中一行,图片会显示模型的响应……
Agent类可以使用常规函数模式作为工具,在调用时返回固定值。如果你包含与你的Computer方法匹配的工具(以及所需的工具),它们将被发送给你的Computer处理。
这在屏幕截图遗漏搜索栏或返回箭头等内容时很有帮助,这些内容可能会混淆CUA模型。
原文链接: How To Build An OpenAI Computer-Using Agent (CUA Model)
汇智网翻译整理,转载请标明出处