Codex App: 你的AI同事
在尝试 Codex App 之前,先阅读本文!
1、不必要的推广
OpenAI 的新 Codex 应用让人感到困惑,因为他们总是将其与编辑器进行比较。
这不是编辑器。这是人员配置决策。
当你打开 Codex 时,你不是坐下来写代码。你走进了一个有多个代理的房间,他们比你工作更快、瞬间读取每个文件,并且 24/7 为你做事情。
你的工作不是与他们并肩编码。你的工作是委托、监管和审查他们的工作。
问题不在于这是否是更好的 IDE。问题在于你是否准备好成为技术负责人。
2、Codex App 实际上是什么
让我们先澄清一下困惑。Codex 自 2025 年 4 月以来就作为一个基于云的编码代理存在,可通过网页、CLI 和 IDE 扩展使用。Codex 应用于 2026 年 2 月 2 日在 macOS(Apple Silicon)上发布,是在该同一系统之上的新的原生桌面界面。可以将其视为在浏览器标签中使用 Gmail 和拥有专用电子邮件客户端之间的区别。
但界面改变工作流程。而工作流程才是最重要的。
你可能在添加项目方面遇到困难……
该应用围绕项目和线程组织。每个项目映射到一个代码库。在每个项目内,你可以运行多个线程,每个线程是一个代理在不同的任务上工作。三种线程模式:本地(直接在你的项目目录中工作)、工作树(创建一个隔离的 Git 工作树,以便代理不会弄乱你的工作分支)和云(远程运行长时间任务)。
结果是更少的"结对编程"和更多的"项目管理"。你在分配工作、检查进度、审查差异。
OpenAI 在内部使用这种工作流程在 28 天内构建 Sora for Android。多个代理并行运行,一个在回放,一个在搜索,一个在错误处理。团队将其描述为"令人难以置信地与一名技术负责人和几名新工程师相似。"
这句话告诉你一切。
3、使应用与众不同的三件事
如果你已经通过 CLI 或网页使用过 Codex,该应用添加了三个改变你工作方式的功能。
工作树:无混乱的并行
这是主要功能,它确实很有用。当你以工作树模式生成线程时,代理会获得你自己仓库的隔离副本。它可以更改文件、运行测试、创建提交,而无需接触你的本地工作状态。
你可以在同一个仓库上同时运行两个代理。线程 A 快速修复 bug。线程 B 尝试更深层的重构。它们不会互相干扰。当它们完成时,你在应用内审查两个差异,分块暂存、提交或还原。该应用具有完整的 Git 集成:内联评论、块级暂存、推送和 PR 创建,而无需离开窗口。
实际价值:你不再需要在开始另一项工作之前完成一项。并且你可以廉价地探索"假设"分支。"如果我们用缓存层解决这个问题呢?"它获得自己的工作树。"如果我们只是修复查询呢?"它获得另一个。你比较并选择。
技能:可移植的操作手册
技能是指令、资源和脚本的包,扩展了代理可以做的事情。它们在应用、CLI 和 IDE 扩展之间同步。你可以将它们检入到你的仓库,以便整个团队都能获得它们。
OpenAI 发布了一个库:从 Figma 提取设计上下文、在 Linear 中管理项目、部署到 Cloudflare 或 Vercel、使用 GPT Image 生成图像、创建 PDF 和电子表格。但有趣的是你自己编写的那些。
实际的一个:依赖项审计技能,扫描过时或不推荐的包,运行更新,运行测试,并且仅在出现问题时 ping 你。将其检入到仓库。每个队友都能获得它。它在没有任何人输入提示词的情况下运行。
技能是将 Codex 从"一个编码代理"转变为"一个了解你流程的团队"的原因。这种差异是显著的。
自动化:夜班
自动化将技能与时间表结合起来。设置一次,它就会在后台以你定义的节奏运行,每次运行都在自己的工作树中。结果会落在收件箱中。如果没有需要报告的内容,它会自动归档。
OpenAI 表示他们内部使用它来进行日常问题分类、CI 失败摘要、发布简报和 bug 狩猎。这个概念很直接:你每天早上坐下来检查的事情已经被检查了。
收件箱设计很重要。你只看到发现某些内容的运行。"无发现"运行会消失。对于你的代码库来说,这是收件箱零,你处理需要注意的内容,而噪音已经消失。
4、与 Codex 相处的十五分钟
这是一个实际会话的样子。
打开一个项目。将应用指向你的仓库。它从 CLI 和 IDE 扩展中提取你的会话历史记录和配置,所以如果你之前使用过 Codex,你的技能和上下文会继续。
技能
固定你的技能。浏览侧边栏,激活与此项目相关的技能。依赖项审计、测试生成器,你的团队已经检查的任何内容。
生成两个线程。线程 A(工作树模式):"找到结账测试失败的根因,最小差异。"线程 B(工作树模式):"删除过时的功能标志,PR 就绪差异。"两个代理同时在隔离的副本中工作。
去喝咖啡。或者继续在你的编辑器中工作。该应用在后台运行。当线程需要注意时,它会通知你。
审查。线程 A 发现了 bug,支付回调中的竞态条件。三行修复。你暂存它并推送。线程 B 删除了四个功能标志和 200 行死代码,但遗漏了一个埋在测试帮助程序中的标志。你添加内联评论并将其发送回去。代理从它停止的地方继续。
安排自动化。在你关闭笔记本电脑之前,设置每晚分类:总结 CI 失败、标记任何新问题。明天早上,收件箱要么有需要处理的内容,要么是空的。
这就是日常循环:分配、审查、分配。
5、审查队列就是产品
这是大多数人心理模型崩溃的地方。他们把审查视为瓶颈,在他们和已交付的代码之间讨厌的事情。但在 Codex 中,审查队列就是产品。这就是你整天实际做的事情。
Codex 生成代码以便你可以审查它。不是盲目地交付它。
如果你将审查视为杂务,Codex 会让人沮丧。如果你将审查视为工作,Codex 感觉像是第一个真正匹配高级工程师工作方式的技术工具。高级工程师不再编写大部分代码。他们审查它,捕获边缘情况,进行架构决策。
Codex 只是将该工作流程正式化为桌面应用程序。
6、它适合的地方(以及不适合的地方)
每个开发者都会问:我应该替换 Cursor 吗?我应该从 Claude Code 切换吗?
不。这些工具填充不同的角色。
Cursor 是外科医生。当你在文件内部、针对特定逻辑进行精确工作时使用它。它生活在你的编辑器中。它在你输入时自动完成。它是阻塞的:你实时使用它。最适合深度、专注于单个问题的工作。
Claude Code 是顾问。它在你的终端中运行。你就架构进行对话。它深入思考,提出澄清性问题,并产生深思熟虑的输出。它是线性的:一个线程,一个对话。最适合复杂的重构和设计决策。
Codex 是项目经理。它是一个仪表板。你分配任务、检查进度、审查输出。它是非阻塞的:代理在后台运行,同时你做其他工作。最适合并行杂务、迁移、测试编写、依赖项更新以及你会分配给初级开发人员的任何事情。
实用设置:将编辑器用于深度工作。将终端工具用于架构对话。为你会不断推迟的背景工作安装 Codex。
7、诚实的紧张关系
该应用领先于模型。
原生 UI 确实构建良好。工作树编排、沙箱化安全、技能系统、自动化收件箱、具有块级暂存和内联评论的 Git 集成,这些都是真正的工程成就。OpenAI 构建了一个专为可靠代理机队设计的驾驶舱。
GPT-5.2-Codex 的早期评价将"无更改接受率"设定在约 40-60%。这意味着大约一半的时间你会批准输出,一半的时间你会将其发回或自己修复。模型等级很重要:中等能力但不一致,低速度快但明显较弱。
这为并行代理创建了一个特定问题。一个可靠性为 50% 的代理是可管理的。五个可靠性为 50% 的代理意味着五个审查队列,每个都需要仔细注意。你可能意外地创建比你从生成中节省的更多的审查工作。
变通方法是选择性。将代理分配给明确定义、低模糊度的任务:更新此依赖项、为此函数添加测试、删除此功能标志。为精确度比并行性更重要的工具保存复杂的、需要大量上下文的工作。
该应用是为模型追上来的未来设计的。它们很可能会的。但今天,你从两个专注的线程中获得的价值比五个分散的线程更多。
8、投入时间之前需要知道的事情
沙箱是真实且有用的。默认情况下,代理只能编辑其项目目录中的文件并使用缓存的网页搜索。网络访问或提升的命令需要明确的权限。你可以为每个项目预先批准安全命令(如 npm test 或 pytest)以保持流程无盲目信任地进行。沙箱是开源和可配置的,这对于有安全要求的团队很重要。
MCP 支持。该应用支持模型上下文协议,因此你可以将代理连接到其他服务。配置在应用、CLI 和 IDE 扩展之间传播。如果你已经为 Claude Code 或其他工具设置了 MCP 服务器,概念很熟悉。
IDE 同步。如果你在与 Codex IDE 扩展并排运行应用,它们共享上下文。你在编辑器中查看的文件会自动输入到代理的意识中。线程在两个界面中都是可见的。
仅限 macOS、Apple Silicon。没有 Windows,没有 Linux,暂时没有。对于并非每个人都在 Mac 上的团队,这限制了 Codex 作为共享工作流程工具的使用。CLI 和网页仍然跨平台工作,但应用的特定优势(工作树、自动化收件箱、项目组织)暂时仅限于 Mac。
语音和图像输入。Ctrl+M 进行语音听写。将图像拖动到组合器中以获取视觉上下文。代理可以对正在运行的应用程序进行截图以视觉验证其工作。小功能,但对快速迭代很有用。
9、市场背景
此次发布是竞争性的。Claude Code 据报道达到了 10 亿美元的年度化收入。自 8 月以来 Codex 使用量增长了 20 倍,上个月有超过 100 万开发者活跃,自 GPT-5.2-Codex 于 12 月中旬推出以来几乎翻了一番。
定价是激进的。Codex 暂时对所有 ChatGPT 层级免费。付费计划的速率限制翻倍。对于已经在 ChatGPT Enterprise 上的组织,Codex 就在那里,相同的管理控制、相同的监控、相同分析。在 OpenAI 生态系统内切换的成本为零。
OpenAI 的押注:把界面弄对,建立习惯,然后改进底层的模型。这是否奏效取决于模型质量追赶上一个已经为某种更好的东西的速度。
10、结束语
Codex 是我见过的设计最好的 AI 编码界面,包裹在一个还没有完全准备好信任的模型周围。界面意味着信任。
如果你喜欢逐行编写代码的流程状态、一次解决问题一个问题的满足感,Codex 会让你感觉像是被违背意愿晋升为中层管理。
深度工作转移到其他工具。Codex 是杂务去的地方。
对于那些你一直推迟的事情——更新依赖项、为遗留代码编写测试、分类 CI 失败、删除死功能标志——Codex 现在确实很有用。不是因为模型完美,而是因为分配-审查-交付循环是正确的。即使模型需要第二轮,这种工作流程仍然有效。
将它安装在你的编辑器旁边,而不是替代它。从两个线程开始,而不是五个。审查一切。并且密切关注模型更新,因为有一天代理会像应用期望的那样可靠,这成为构建软件的一种真正不同的方式。
驾驶舱已经准备好了。引擎正在升温。
原文链接: Codex App in Practice: How to Turn “AI Coworker” Into a Team You Can Actually Supervise
汇智网翻译整理,转载请标明出处