AGENT

Claude Code里的Codex

我在Claude Code中安装了OpenAI的Codex插件，突然间我可以在同一个终端会话中运行了两个竞争的AI系统——一个起草，一个审查。

admin

Apr 15, 2026 • 14 min read

AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

上周我在Claude Code中安装了OpenAI的Codex插件。四个命令，五分钟，突然间我在同一个终端会话中运行了两个竞争的AI系统——一个起草，一个审查。

感觉像是一个 parlor trick。然后我读到了微软同一天发布的内容。

Copilot Cowork，现在为企业Microsoft 365客户上线，在完全不同的规模上做同样的事情。GPT起草一份研究报告。Claude审计它。第三个模型综合两者。

它报告称比其最接近的竞争对手提高了13.8%的基准——由竞争对手自己的测试衡量，由供应商自己的模型评分。而对于我们这些在受监管机构工作的人来说，它包含了一个技术媒体还没有写过的合规缺口。

本文涵盖两个层面：

首先是实践层面：如何在今天的工作流程中配对Claude Code和Codex，带有前后示例，明确展示第二意见在哪里重要。
然后是架构层面：微软实际构建了什么，为什么基准故事比看起来更复杂，以及每个部署该产品的银行在上线前应该问的具体问题。

1、无人谈论的官方插件

3月30日，OpenAI发布了Claude Code的官方插件。不是社区fork，不是hack。来自OpenAI的官方发布，发布在他们自己的GitHub账户上，设计为在其直接竞争对手的工具中运行Codex。

值得暂停一下。两家公司正在为同一个市场竞争。他们的模型在相同的基准上竞争。而OpenAI刚刚发布了一个扩展Claude Code能力的插件。

回想起来，商业逻辑很清楚：住在Claude Code的开发者不会消失，Codex需要出现在开发者所在的地方。但无论背后的策略是什么，结果都是有用的。

插件实际做什么。它将Codex添加为你Claude会话中的后台子进程。Claude处理你的积极工作——读取文件、编辑、对上下文进行推理。Codex异步运行你交给它的任务，所以你保持不阻塞。两个模型，两个执行环境，一个终端。

设置需要五分钟。你需要Node.js 18.18+、ChatGPT账户（免费层也可以）或OpenAI API密钥，以及已经运行的Claude Code。

安装Codex CLI：

npm install -g @openai/codex
codex login

在Claude Code中添加插件：

/plugin marketplace add openai/codex-plugin-cc
/plugin install codex@openai-codex
/reload-plugins
/codex:setup

最后一个命令确认一切连接。如果它打印版本号，你就准备好了。

费用是多少？如果你使用自己的OpenAI API密钥，每次/codex:rescue调用大约运行2K输入token + 1K输出token，按GPT-5.4定价（每百万token $2.50/$15）——大约每次调用$0.02。每天50次调用，那就是~$1/天，或$$30/月。运行后台研究循环的重度用户应该注意他们的token使用。免费ChatGPT账户层限制很激进；对于常规使用，API密钥更可靠。

2、对抗性审查实际上能捕捉到什么

对于代码工作，使用 /codex:adversarial-review。它不只是检查bug——它挑战设计决策、质疑假设，并暴露你未考虑的边缘情况。

这就是它在实践中的样子。我要求Claude写一个Python函数来处理一批API响应：

Claude的输出（摘要）：

def process_batch(responses):
    results = []
    for r in responses:
        if r.status_code == 200:
            results.append(r.json()["data"])
    return results

Claude对自己代码的审查："看起来正确。处理成功情况，过滤非200响应。"

运行 /codex:adversarial-review后， Codex标记了三个问题：

r.json()["data"] 如果API返回200但没有"data"键会引发KeyError——对于部分响应是真实情况
没有处理r.json()本身失败的情况（200上的畸形JSON比听起来更常见）
静默丢弃非200响应意味着错误消失——任何下游监控都会错过失败

Claude读了相同的代码并说它看起来很好。两个模型。不同的答案。两者都有用——但其中一个真的有用。

这个工作原理不是魔法。Claude和Codex有不同的训练分布、不同的微调历史、不同的失败模式。当它们不同意时，不同意通常指向真实的东西。

对于非编码工作， /codex:rescue改变了你做研究的方式。你不必写代码才能从配对中获得价值。

假设你正在起草一份文档，需要关于一个主题的背景——但你不想丢失当前的Claude上下文。交接任务：

/codex:rescue research the EU AI Act Article 12 logging requirements
and summarize what a bank needs to document for high-risk AI systems

Codex作为后台作业运行。你继续写作。完成后：

/codex:result

摘要返回到你的会话中。没有标签切换，没有丢失上下文，没有等待。我用它进行竞争研究、在起草中检查事实声明，以及在承诺之前检查技术方法是否有已知问题。

什么时候不使用Codex插件。它增加了开销。对于你一小时后会扔掉的小脚本，审查循环减慢你的速度超过帮助。对于你仍在弄清楚问题的探索性任务，对早期草案的对抗性审查大多产生噪音。而对于任何Claude推理深度已经超过任务复杂性的工作，第二意见不会增加太多。在重要的工作上使用它——进入生产的PR、你将依赖做决定的研究、将被不是你的人阅读的文档。

现在放大来看。你刚刚在笔记本上设置的——一个模型起草，另一个审查——微软在相同模式下在Outlook、Teams和Excel中以企业规模发货。而在那种规模上，架构创造了一个技术媒体还没有问过的问题。

3、两种架构，不是一种

大多数关于Copilot Cowork的报道混淆了两个独立的功能。它们有不同的架构、不同的权衡，以及对责任的不同影响。

第一个是Critique。

Critique是顺序的。GPT计划研究任务，遍历检索，并产生带有引用的初始草案。然后Claude作为审查者介入，在三个维度上审计该草案：来源可靠性、报告完整性和证据依据。你永远不会看到中间草案。你得到的是最终审查输出，作为单个Researcher答案交付。

设计是有意的。目标是更干净的用户体验——一个答案，已经检查过。审查在后台发生，只有在某些东西改变时才会出现。

你今天可以复制这个模式。安装了Codex插件后，/codex:adversarial-review在Claude刚刚产生的任何东西上运行相同的顺序逻辑——代码、文档、研究摘要。审查者有不同的训练分布和不同的失败模式。分歧就是价值所在。

第二个是Model Council，它的运作方式不同。

Model Council并行运行。GPT和Claude同时对同一问题各自产生一个完整的独立报告。然后第三个"评判模型"评估两个输出，生成一个综合，显示模型在哪里一致、在哪里分歧，以及每个发现了什么另一个遗漏的东西。分歧是可见的。你看到了。

这是一个更诚实的架构。它承认两个前沿模型在同一源材料上会得出不同的结论——并暴露这种张力而不是隐藏它。

你也可以复制这个。当Claude在你的活跃会话中回答同一个问题时，运行/codex:rescue [你的问题]。当/codex:result返回时，比较它们。在它们一致的地方，你的信心上升。在它们分歧的地方，有些东西值得检查。我用它来处理我将要给出数字的任何研究声明。

权衡是透明度与便利性。Critique给你一个干净的答案。Model Council给你分歧的地图。你想要哪个取决于你用输出做什么——以及，正如我们将看到的，你对它需要多负责。

两个功能都在Copilot Cowork的Frontier层上线，作为3月30日。两者都需要管理员启用——IT必须批准Claude访问M365租户，然后任一功能才能激活。

商业背景简要：微软股票在2026年Q1下跌23%——自2008年以来最糟糕的季度。只有3.3%的4.5亿M365订阅者为Copilot付费。当与ChatGPT正面竞争时，用户有18%的时间选择Copilot。E7捆绑包在$99/座位（5月1日）是货币化工具，捆绑M365 E5 + Copilot + Agent 365 + Entra Suite。Cowork的多模型功能证明了价格上涨。而他们选择的基准——DRACO——是由Perplexity，他们的直接竞争对手创建的。微软自己运行测试，使用GPT-5.2作为评判者（与起草者相同供应商），结果尚未被独立复制。13.8%的改进可能是真的。它还没有被任何没有利益关系的人验证。

还有一个细节：这里的Anthropic合作不寻常。微软使用Anthropic的Claude为直接与Anthropic自己的独立Claude Cowork产品竞争的产品提供动力。

相同的底层模型。非常不同的治理层。

4、归属缺口

作为在银行工作的人，我读到Critique时问的第一个问题不是"它能工作吗？"而是："哪个模型说了什么，我能向审查者证明吗？"

答案，截至今天，是不能。

这是具体问题。Critique被设计为隐藏中间草案。这是一个功能：它给你一个干净的最终答案，无需让你协调两个竞争的输出。但这意味着哪个模型版本产生了哪个 claim 的身份被抽象在微软的编排层后面。你收到一个Researcher输出。模型归属不在该输出中。

对于大多数用例，这没问题。对于受监管的用例，不是。

SR 11-7——美联储的模型风险管理指导——适用于银行在关键决策中使用的每个模型。它要求银行识别每个模型，独立验证它，记录其限制，并监控其持续性能。关键：外包给供应商不会转移银行的监管责任。OCC、FED和FDIC都在积极将SR 11-7原则应用于生成式AI部署。

Critique创建了一个双模型管道。SR 11-7希望两个模型都有文档。输出不会告诉你哪个GPT版本起草了，哪个Claude版本审查了。如果微软静默更新任一模型（他们可以），你可能不知道。

欧盟AI法案增加了第二层。第12条，2026年8月2日生效，要求高风险AI系统维护自动的、事件级日志和可追溯性。信用评分、AML/欺诈检测、贷款批准和KYC系统都在附件III下分类为高风险。如果银行部署Critique来支持任何这些功能的研究，日志要求适用于管道，而不仅仅是输出。

微软目前提供的是M365级审计日志，谁运行了什么查询，什么时候。这与每次推理调用的模型级归属不一样。E7客户是否能获得模型级日志是微软尚未公开回答的问题。

让我担心的场景。合规官员使用Copilot Researcher的Critique来评估特定衍生品结构是否在CFTC指导下允许。管道返回一个自信的、有良好引用的答案。一个引用被误读；一个监管解释略微错误。银行依赖它。六个月后审查者问：哪个模型版本产生了该解释？它是在SR 11-7下验证的吗？当时查询的模型版本是什么？

在当前架构下，这些问题都没有银行可以产生的答案。

我想诚实地说明我在这里不知道什么。微软可能向E7客户提供per-model审计日志，只是没有公开记录。可能即将到来的FCA关于多模型AI管道的指导会澄清"充分日志"对Critique这样的系统意味着什么。这些是开放的问题。但"可能"不是银行审查者满意的答案。而且现在，公开文档没有缩小差距。

5、怎么做

你应该使用哪种多模型模式？

如果你是开发者或知识工作者：插件在github.com/openai/codex-plugin-cc。五分钟设置。在你关心的下一件工作上开始使用/codex:adversarial-review。对会破坏你上下文的任务使用/codex:rescue。一个警告：Claude和Codex之间的自动循环可以快速消耗API使用。保持人在循环中直到知道你的模式。

如果你在受监管机构评估Copilot Cowork，在上线前的下一个供应商电话中问三个问题：

Critique管道中现在使用哪个模型版本，当任一模型更新时你会通知我们吗？
E7客户是在审计日志中接收per-model归属，还是只有聚合的M365查询日志？
你们的文档如何支持我们针对Critique功能的SR 11-7模型清单和欧盟AI法案第12条可追溯性义务？

如果答案含糊，那就是答案。这不意味着不要部署——这意味着不要将Critique用于接触高风险AI用例的工作，直到文档存在。

如果你管理模型风险：在上线前为SR 11-7审查标记Critique。Model Council更可辩护——两个输出都可见，两个都可以记录。这种透明度权衡比看起来更重要，当审查者打电话时。

要观察什么：FCA关于多模型审计线索的指导预计在2026年H2。独立DRACO复制将在几个月内出现。欧盟AI法案的时钟在8月2日打击银行。

6、我的工作流程中实际发生了什么

对抗性审查模式改变了我工作方式的微妙之处。之前，我会要求Claude对我不确定的东西进行第二次阅读。现在我通过Codex路由——不是因为Codex更聪明，而是因为有不同盲点的审查者比同一个模型读取自己的输出更有用。

我也停止把它们不同意的案例当作噪音来对待。分歧通常是发现。两个前沿模型在同一源材料上得出不同的结论几乎总是意味着某人在做值得检查的假设。

我还没有在工作场所使用Copilot Cowork的Critique。不是因为功能不令人印象深刻——它是。但直到微软回答归属问题，将其部署在可能最终出现在审查者面前的任何东西上感觉像是一个我必须拥有的文档缺口。Model Council更诚实。我会从那里开始。

多模型质量循环在这里。技术架构是聪明的。治理架构仍在追赶——而那个差距是你要管理的，不是微软的。

原文链接: I Ran Codex and Claude Side by Side. Here's What I Found.

汇智网翻译整理，标明出处