INDUSTRY

你的AI-First策略可能是错的

AI-first意味着你围绕AI是主要构建者的假设，重新设计你的流程、架构和组织。你停止问“AI如何帮助我们的工程师？”并开始问“我们如何重新构建一切，以便AI进行构建，而工程师提供方向和判断？”

admin

Apr 13, 2026 • 19 min read

AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

我们的生产代码中有99%是由AI编写的。上周二，我们在上午10点推出了一个新功能，中午对其进行了A/B测试，并在下午3点因为数据说不行而将其终止。我们在下午5点推出了一个更好的版本。三个月前，像这样的一个周期需要花六周时间。

我们并不是通过在我们的IDE中添加Copilot而达到这里的。我们拆解了我们的工程流程，并围绕AI重建了它。我们改变了我们计划、构建、测试、部署和组织团队的方式。我们改变了公司中每个人的角色。

CREAO是一个代理平台。25名员工，10名工程师。我们于2025年11月开始构建代理，两个月前我从头开始重新构建了整个产品架构和工程工作流。

OpenAI在2026年2月发布了一个概念，它捕捉到了我们一直在做的事情。他们称之为harness engineering：工程团队的主要工作不再是编写代码。它是使代理能够做有用的工作。当某事失败时，修复从来不是“更努力尝试”。修复是：什么能力缺失了，我们如何使其对代理来说可读和可强制执行？

我们自己得出了那个结论。我们当时没有为它命名。

1、AI-First 与使用AI不同

大多数公司将AI bolted onto他们现有的流程。一个工程师打开Cursor。一个PM用ChatGPT起草规格。QA用AI测试生成进行实验。工作流保持不变。效率提升10到20%。结构上没有任何改变。

那是AI辅助的。

差异是成倍的。

我看到团队声称AI-first，同时运行相同的冲刺周期、相同的Jira板、相同的每周站会、相同的QA签核。他们将AI添加到循环中。他们没有重新设计循环。

这种常见版本就是人们所说的vibe coding。打开Cursor，提示直到某些东西起作用，提交，重复。那产生原型。生产系统需要稳定、可靠和安全。你需要一个系统，当AI编写代码时能够保证那些属性。你构建系统。提示是可丢弃的。

2、为什么我们必须改变

去年，我观察了我们团队的工作方式，并看到了三个会杀死我们的瓶颈。

2.1 产品管理瓶颈

我们的PM们花几周时间研究、设计、指定功能。产品管理几十年来一直这样运作。但代理可以在两个小时内实现一个功能。当构建时间从几个月崩溃到小时时，一个长达几周的规划周期成为约束。

花几个月思考某事然后在两个小时内构建它是没有意义的。

PMs需要演变为以迭代速度工作的产品思维架构师，或者退出构建循环。设计需要通过快速原型-推出-测试-迭代循环发生，而不是委员会审查的规格文档。

2.2 QA瓶颈

同样的动态。在代理推出一个功能后，我们的QA团队花几天时间测试边缘案例。构建时间：两个小时。测试时间：三天。

我们用AI构建的测试平台替换了手动QA，这些平台测试AI编写的代码。验证必须与实施以相同速度移动。否则你就在旧瓶颈下游十英尺处构建了一个新瓶颈。

2.3 人力瓶颈

我们的竞争对手有100倍或更多的人做类似的工作。我们有25人。我们无法通过招聘达到对等。我们必须通过重新设计达到那里。

三个系统需要AI贯穿其中：我们如何设计产品、如何实现产品以及如何测试产品。如果任何一个保持手动，它就会约束整个管道。

3、大胆决定：统一架构

我必须先修复代码库。

我们的旧架构分散在多个独立系统中。一个单一变化可能需要触及三或四个仓库。从人类工程师的角度来看，它是可管理的。从AI代理的角度来看，是不透明的。代理无法看到全貌。它无法推理跨服务的影响。它无法本地运行集成测试。

我必须将所有代码统一到一个单一的monorepo中。一个原因：这样AI就可以看到一切。

这是harness engineering原则在实践中的体现。你将系统越多拉入代理可以检查、验证和修改的形式，你获得的杠杆就越多。碎片化的代码库对代理来说是不可见的。统一的则是可读的。

我花了一周时间设计新系统：规划阶段、实施阶段、测试阶段、集成测试阶段。然后又花了一周使用代理重新架构整个代码库。

CREAO是一个代理平台。我们使用我们自己的代理来重建运行代理的平台。如果产品能构建自己，它就有效。

4、技术栈

这是我们的栈以及每个部分的作用。

4.1 基础设施：AWS

我们在AWS上运行，使用自动缩放容器服务和电路断路器回滚。如果部署后指标下降，系统会自动回滚。

CloudWatch是中央神经系统。所有服务上的结构化日志，超过25个警报，每天由自动化工作流查询的自定义指标。每块基础设施都暴露结构化的、可查询的信号。如果AI无法读取日志，它就无法诊断问题。

4.2 CI/CD：GitHub Actions

每个代码变更通过一个六阶段管道：

Verify CI → Build and Deploy Dev → Test Dev → Deploy Prod → Test Prod → Release

每个pull request上的CI门强制执行类型检查、linting、单元和集成测试、Docker构建、通过Playwright的端到端测试，以及环境一致性检查。没有阶段是可选的。没有手动覆盖。管道是确定性的，所以代理可以预测结果并推理失败。

4.3 AI代码审查：Claude

每个pull request触发三个并行的AI审查通道，使用Claude Opus 4.6：

Pass 1: Code quality. Logic errors, performance issues, maintainability.

Pass 2: Security. Vulnerability scanning, authentication boundary checks, injection risks.

Pass 3: Dependency scan. Supply chain risks, version conflicts, license issues.

这些是审查门，而不是建议。它们与人工审查并行运行，捕捉人类在批量时错过的内容。当你一天部署八次时，没有人工审查者能在每个PR上维持注意力。

工程师还在任何GitHub issue或PR中标记@claude，用于实施计划、调试会话或代码分析。代理看到整个monorepo。上下文在对话间携带。

4.4 自我修复反馈循环

这是中心部分。

每天上午9:00 UTC，一个自动化的健康工作流运行。Claude Sonnet 4.6查询CloudWatch，分析所有服务的错误模式，并生成执行健康摘要，通过Microsoft Teams交付给团队。没有人需要请求它。

一小时后，分诊引擎运行。它从CloudWatch和Sentry聚类生产错误，在九个严重性维度上为每个聚类评分，并自动在Linear中生成调查票据。每个票据包括样本日志、受影响用户、受影响端点和建议调查路径。

系统去重。如果一个开放issue覆盖相同的错误模式，它更新该issue。如果之前关闭的issue再次发生，它检测到回归并重新打开。

当工程师推送修复时，相同的管道处理它。三个Claude审查通道评估PR。CI验证。六阶段部署管道通过dev和prod提升，每个阶段都有测试。部署后，分诊引擎重新检查CloudWatch。如果原始错误解决，Linear票据自动关闭。

每个工具处理一个阶段。没有工具试图做一切。每日循环创建一个自我修复循环，其中错误被检测、分诊、修复和验证，只需最小的人工干预。

我告诉Business Insider的一位记者：“AI将制作PR，而人类只需要审查是否有任何风险。”

4.5 功能标志和支持栈

Statsig处理功能标志。每个功能都在门后推出。推出模式：为团队启用，然后逐步百分比推出，然后完全发布或终止。终止开关立即切换功能关闭，无需部署。如果功能降低指标，我们在几小时内将其拉下。坏功能在推出的当天死亡。A/B测试通过相同系统运行。

Graphite管理PR分支：合并队列rebase到main，重新运行CI，仅在绿色时合并。堆叠PR允许在高吞吐量下增量审查。

Sentry报告所有服务的结构化异常，由分诊引擎与CloudWatch合并以提供跨工具上下文。Linear是面向人类的一层：自动创建的票据带有严重性分数、样本日志和建议调查。去重防止噪音。后续验证自动关闭已解决的问题。

5、一个功能如何从想法移动到生产

5.1 新功能路径

架构师将任务定义为带有代码库上下文、目标和约束的结构化提示。

一个代理分解任务，规划实施，编写代码，并生成自己的测试。

一个PR打开。三个Claude审查通道评估它。人类审查者检查战略风险，而不是逐行正确性。

CI验证：类型检查、lint、单元测试、集成测试、端到端测试。

Graphite的合并队列rebase，重新运行CI，如果绿色则合并。

六阶段部署管道通过dev和prod提升，每个阶段测试。

功能门为团队打开。逐步百分比推出。指标被监控。

如果任何东西下降，终止开关可用。电路断路器为严重问题自动回滚。

5.2 错误修复路径

CloudWatch和Sentry检测错误。

Claude分诊引擎评分严重性，创建带有完整调查上下文的Linear issue。

一个工程师调查。AI已经完成了诊断。工程师验证并推送修复。

相同的审查、CI、部署和监控管道。

分诊引擎重新验证。如果解决，票据自动关闭。

两条路径使用相同的管道。一个系统。一个标准。

6、结果

在14天内，我们平均每天三到八个生产部署。在我们的旧模型下，整个两周时期甚至不会产生单个生产发布。

坏功能在推出的当天被拉下。新功能在构思的当天上线。A/B测试实时验证影响。

人们假设我们用质量换速度。用户参与度上升了。支付转化率上升了。我们产生比以前更好的结果，因为反馈循环更紧。当你每天推出时比每月推出时学到更多。

7、新的工程组织

两种类型的工程师将存在。

7.1 架构师

一或两个人。他们设计教AI如何工作的标准操作程序。他们构建测试基础设施、集成系统、分诊系统。他们决定架构和系统边界。他们定义对代理来说“好的”是什么样子。

这个角色需要深刻的批判性思维。你批评AI。你不跟随它。当代理提出计划时，架构师找到漏洞。它错过了什么失败模式？它跨越了什么安全边界？它在积累什么技术债务？

我有物理学博士学位。我的博士学位教我的最有用的事情是如何质疑假设、压力测试论点，并寻找缺失的东西。批评AI的能力将比产生代码的能力更有价值。

这也是最难填补的角色。

7.2 操作员

其他人。工作很重要。结构不同。

AI将任务分配给人类。分诊系统找到一个bug，创建票据，表面诊断，并分配给合适的人。这个人调查、验证并批准修复。AI制作PR。人类审查是否有风险。

任务是bug调查、UI改进、CSS改进、PR审查、验证。它们需要技能和注意力。它们不需要旧模型要求的那种架构推理。

7.3 谁适应最快

我注意到一个我没预料到的模式。初级工程师比高级工程师适应更快。

传统实践较少的初级工程师感到被赋能。他们可以访问放大他们影响的工具。他们没有携带十年的习惯需要忘掉。

具有强大传统实践的高级工程师最难受。他们两个月的工作可以被AI在一个小时内完成。在多年构建罕见技能集后，这是很难接受的事情。

我不是在做判断。我是在描述我观察到的。在这个转变中，适应性比积累的技能更重要。

8、人性的一面

8.1 管理崩溃了

两个月前，我花60%的时间管理人。对齐优先级。运行会议。给予反馈。指导工程师。

今天：低于10%。

传统的CTO模型说要赋能你的团队做架构工作，培训他们，委托。但如果系统只需要一两个架构师，我需要先自己做。我从管理转向构建。我大多数日子从上午9点编码到凌晨3点。我设计系统的SOP和架构。我维护harness。

压力更大。但我享受构建，而不是对齐。

8.2 更少争论，更好关系

我与联合创始人和工程师的关系比以前更好。

转变前，我与团队的大多数互动是对齐会议。讨论权衡。辩论优先级。对技术决策不同意。那些对话在传统模型中是必要的。它们也很消耗。

现在我仍然和团队交谈。我们谈论其他事情。非工作话题。随意对话。离站旅行。我们相处更好，因为我们停止了争论可以轻易由我们的系统完成的工作。

8.3 不确定性是真实的

我不会假装每个人都快乐。

当我停止每天和人们交谈时，一些团队成员感到不确定。CTO不和我交谈意味着什么？我在这个新世界中的价值是什么？合理的担忧。

一些人花更多时间辩论AI是否能做他们的工作，而不是做工作。转变时期创造焦虑。我没有干净的答案。

我确实有一个原则：我们不因为工程师引入生产bug而解雇他们。我们改进审查流程。我们加强测试。我们添加护栏。同样的适用于AI。如果AI犯错，我们构建更好的验证、更清晰的约束、更强的可观察性。

9、超越工程

我看到其他公司采用AI-first工程，而让其他一切保持手动。

如果工程在几小时内推出功能但营销需要一周宣布它们，营销就是瓶颈。如果产品团队仍然运行每月规划周期，规划就是瓶颈。

在CREAO，我们将AI-native操作推入每个职能：

产品发布笔记：AI从变更日志和功能描述生成。
功能介绍视频：AI生成的动态图形。
社交媒体每日帖子：AI编排并自动发布。
健康报告和分析摘要：AI从CloudWatch和生产数据库生成。

工程、产品、营销和增长在一个AI-native工作流中运行。如果一个职能以代理速度运行而另一个以人类速度运行，人类速度职能约束一切。

10、这意味着什么

10.1 对于工程师

你的价值正在从代码输出转移到决策质量。快速编写代码的能力每个月价值更少。评估、批评和指导AI的能力价值更多。

产品感觉或品味很重要。你能看着生成的UI并在用户告诉你之前知道它是错的吗？你能看着架构提案并看到代理错过的失败模式吗？

我告诉我们19岁的实习生：训练批判性思维。学会评估论点、找到差距、质疑假设。学会好的设计是什么样子。那些技能复合。

10.2 对于CTO和创始人

如果你的PM流程比你的构建时间长，从那里开始。

在你扩展代理之前构建测试harness。没有快速验证的快速AI是快速移动的技术债务。

从一个架构师开始。一个人构建系统并证明它有效。在系统运行后将其他人加入操作员角色。

将AI-native推入每个职能。

预期阻力。有些人会推回。

10.3 对于行业

OpenAI、Anthropic和多个独立团队在相同原则上汇聚：结构化上下文、专用代理、持久记忆和执行循环。Harness engineering正在成为标准。

模型能力是驱动这个的时钟。我将CREAO的整个转变归因于最近两个月。Opus 4.5无法做到Opus 4.6能做的。下一代模型将进一步加速它。

我相信一人公司将变得常见。如果一个有代理的架构师能做100人的工作，许多公司将不需要第二个员工。

11、我们还早

我交谈的大多数创始人和工程师仍然以传统方式运作。有些人考虑做出转变。很少有人做过。

一位记者朋友告诉我她在这个话题上和大约五个人谈过。她说我们比任何人走得更远：“我认为没有人像你这样完全重建了他们的整个工作流。”

工具存在于任何团队都可以这样做。我们栈中没有什么是专有的。

竞争优势是决定围绕这些工具重新设计一切，以及愿意吸收成本的意愿。成本是真实的：员工中的不确定性、CTO每天工作18小时、高级工程师质疑他们的价值、一个两周时期旧系统消失而新系统未被证明。

我们吸收了那个成本。两个月后，数字说话。

我们构建一个代理平台。我们用代理构建了它。

原文链接：Why Your “AI-First” Strategy Is Probably Wrong

汇智网翻译整理，转载请标明出处