AGENT

AI智能体需要架构师

我不再是在操作。不再是在管理。也不再在传统意义上指挥。我在设计结构，决定什么承载负载，塑造最终体验。我是一个架构师。

admin

Jun 8, 2026 • 26 min read

AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

六个月前，我开始通过人机协作运行三个主要工作流。跨100个B2B账户的定价重新设计。一个面向客户的智能产品——我们第一个对外展示的智能体能力。以及一个自主智能系统——每周15个制品，将记录系统转化为CEO角色的功能现实，无需手动组装。

总计：275+份文件产出。三个同时运行的系统。零行手写代码。

每一条SQL查询、每一个财务模型、每一个HTML渲染器、每一条编排管道——都通过自然语言指令让智能体完成。

而在这一切的中间，我意识到我的工作已经在不知不觉中发生了变化。

我不再是在操作。不再是在管理。也不再在传统意义上指挥。

我在设计结构，决定什么承载负载，塑造最终体验。

我是一个架构师。

1、增长循环

我构建的每个智能体系统都遵循相同的成熟弧线。现在我可以给它命名了：

过度构建 → 纠正 → 精简 → 执行 → 发现 → 编码 → 重复

智能体为理想状态构建。最大范围，最大雄心。
人类介入。"这过度工程化了。""那个数据不存在。"
剥离所有无法以当前现实为依据的内容。
对实时数据运行。产出实际的制品。
制品揭示了什么坏了——某个部分是空的，某个数字是错的，某种格式失败了。
将发现转化为规则。
下一次迭代暴露下一个差距。

这个循环永远不会终止。但问题的类型沿着可预测的梯度变化：

早期循环 = 架构层面。错误的数据源。虚假约束。将7天的工作假设为9个月的分阶段模型。
中期循环 = 质量层面。部分重叠。语气偏移。42个洞察被压缩到5个，因为全面性超过了有用性。
后期循环 = 边缘情况。Google Sheets将$0格式化为$ -，解析器返回None。一个正则表达式使用了旧的CSS变量名，无声地跳过注入数周。

不要规划完美。要规划这个梯度。三个结构循环，三个质量循环，以及一长串边缘情况。无论你是否编排它，你的系统都沿着这条路径成熟。

2、架构师的工作实际包含什么

不是软件架构。想想物理建筑师。

物理建筑师从不砌砖。从不接电线。但建筑的质量——是否坚固，是否有人愿意居住——几乎完全取决于他们的决定。

智能体架构师做四个决定：

1. 指定材料。 哪些数据源对哪些用途具有权威性——并验证它们确实包含标签所声称的内容。一个暗中包含用户费用的"平台费用"列导致了六次模型重建。一个显示3而不是80的"可计费用户"字段扭曲了整个迁移计划。材料标签正确。但内容不匹配标签的承诺。

2. 设计负载路径。 在物理建筑中，负载从屋顶通过梁通过柱传递到基础。在智能系统中：原始数据 → 聚合洞察 → 表达制品。当管道报告使用交易阶段数据时，每个下游消费者都继承那个数字。如果源头错了，下面处处都错。设计智能如何流动就是设计失败在哪里传播。

3. 设定约束。 架构师决定建筑在哪里结束。哪些房间连接。每个空间的用途是什么——更重要的是，它不用于什么。两份报告漂移到70%重叠，因为没人画边界。一个模板试图同时服务面向客户和内部的受众——两边都没服务好。每个失败都可以追溯到缺失的约束。

4. 指定表达。 输出如何到达人类？居住者走进建筑时体验到什么？这就是架构师的品味成为承载负载的地方。一个结构坚固但没人愿意居住的建筑是失败的建筑。一份数据丰富但洞察贫乏的客户报告不会被读第二遍。一份重复陈述事实但不呈现变化趋势的运营简报不会改变行为。

表达部分是装饰性的——而这正是它需要架构师直接参与的原因。智能体可以整天产出技术上正确的输出。但人类是否信任它、阅读它、基于它行动——那是品味应用于结构。品味不可还原为非人类的东西。

高设计标准也是一种检测机制。过时的日期在精致的布局中看起来就是不对的。空的部分令人尴尬。截断在视觉上是破损的。要求精细工艺能暴露那些本会在纯文本中不被注意而持续存在的问题。

3、歧义之镜

在43份记录中最一致的模式：

当架构师的意图不清晰时，智能体不会问。它构建一些雄心勃勃的东西，通过失败来暴露歧义。

"我想了解我们的增长功能"是模糊的——可能意味着"审核我们目前看到的"或"设计理想状态"。智能体选择了更令人印象深刻的解释：一个641行的系统，覆盖了根本不存在的基础设施。

在另一个工作流中，冲突的收入指标被未解决地传递。智能体虚构了一个调和数字——一个在任何来源中都不存在的数字——因为架构师没有解决矛盾。

在第三个中："构建每周智能摘要"产出了一个按数据源组织的报告，而人类需要的是按决策组织的。歧义不在于内容。在于围绕谁的心智模型来组织。

智能体是一面镜子。清晰的意图 → 清晰的输出。你思维中的裂缝 → 制品中的峡谷。

不是恶意的。是热情的。

智能体会从你规格中的任何缺口冲过去。

这重新定义了质量问题的起源。大多数"AI质量"问题是规格清晰度问题。修复方法不是更好的模型。是更清晰的架构。

名称就是架构。 一个名为sales_callreview.md的提示被引导进化为市场感知。尽管有明确指令，它产出的仍然是一个销售电话审查，只是附带了交叉引用。只有当文件重命名为voice_of_market.md时，智能体才突破束缚。"Operating Newspaper"激活了编辑直觉，而"Weekly Brief"从未做到。名称不是标签。它们是承载负载的。

4、只有你能提供的（人类契约）

六件事反复出现，这些是智能体在结构上无法提供的——不是因为今天它做不好，而是因为它们是协作的结构性属性：

1. 品味。 每个设计突破都源于人类的美学判断或参考制品。智能体过度纠正多于创新——导航从"太隐蔽"变成了"带径向渐变的发光金色圆圈"。内部测量语言（"AOV提升"、"CS转移"）必须通过5-10轮纠正翻译成买家语言（"更大的订单"、"更少的服务工作"）。智能体反映其上下文的词汇。在一个充满内部分析制品的工作空间中，即使指向外部受众，它也会产出内部分析语言。

2. 类别重构。 突破时刻总是来自人类。智能体在框架内以非凡的勤奋进行迭代——比任何人类更快地产生错误方法的第6版。但它无法改变框架。一个多季度分阶段假设在一天内消解。一个复杂的依赖是不必要的。一个CSS重建方法在5次迭代中都是错的。每种情况：人类重构了，智能体做不到。

3. 矛盾解决。 当输入冲突时（两个不同的MRR数字，平台数据仅代表客户业务的12%），智能体要么冻结（循环推理）要么虚构（虚假调和）。它从不说"这两件事不一致——哪个是对的？"它从不说"这个数据在技术上准确但在上下文中具有误导性。"只有从14次客户会议中归来的人类能命名那个差距。

4. "够了"信号。 智能体不知道何时停止。它们添加部分、功能、数据源、免责声明——直到人类减去。42个价值时刻必须压缩为5个销售杠杆。一个6人治理委员会必须变成2个人。一个执行计划的8周顺序节奏必须变成计费周期队列。减法是人类的工作。

5. 诚实执行。 一份Substack草稿暗示公司已经构建并交付了智能体。现实是：我们识别了机会并做出了战略选择。"我们需要保持诚实，将'我们如何构建它'改为'我们计划如何构建它'。"智能体反映的是野心——不是真相——除非被纠正。

6. 压缩。 智能体的默认是全面的。人类的需求随时间漂向压缩。早期报告因全面性而受到赞赏。后来，同样的密度成了负担。这种张力永远不会解决——你管理它，而不是解决它。它是一个永久的设计常数。

这些不是通过更好的模型来修复的bug。它们是协作本身的形态。

人类提供品味、重构、诚实、压缩、矛盾解决和"够了"信号。智能体提供速度、模式遵循、全面覆盖和不倦的迭代。两者都无法单独构建这个。

5、两种相反的失败模式

与智能体一起构建会产生两种看起来相同的失败——都浪费时间——但原因相反：

过度生产。 智能体构建15个部分，而5个就够了。为一个只有2个可用人类的公司产出6人治理委员会。当你想要更简洁的导航时，它添加了进度条、部分计数器、键盘提示和一个回到顶部按钮。

修复：减去。

循环性。 智能体问了8个诊断问题，收到了清晰的答案，然后重新陈述它已知的，引入虚假数据，从不过渡到构建。在一个工作流中：5个月内4,312条消息，智能体最终无法区分当前定义和三周前放弃的方法。

修复：推——或放弃并重新开始。

危险之处在于：

对循环型智能体说"少做点"会让它更谨慎。对过度生产型智能体说"直接构建"会让它构建更多。

过度生产是过度自信。循环性是过度谨慎。干预方式相反。误诊会浪费数天。

6、它在哪里崩溃：五个类别，生动呈现

在43份记录和三个同时运行的工作流中，每个摩擦点都归入五个类别。无论工作流是在构建定价模型、智能报告还是自主管道，分布都是一致的。

每个类别都有对应的架构遗漏——作为架构师我未能指定的东西。这些是我遗漏的承载负载的决定。

6.1 数据管道（约30%的摩擦）

崩溃的管道显然是坏的。产出精美、合理、错误输出的管道是不可见地坏的。

收入模型的第一个版本低估了每月数千美元的潜力，因为platform_fee包含了捆绑用户费用，而billable_users=3是活动快照，不是合同约定的80。一个智能产品的分析集成两天返回零值，因为查询中的字段是organization_shortname而表中是current_organization_shortname。一个高管记分卡将"停滞交易数"分类为"健康"，因为该指标增加了——对于一个"越低越好"的指标，增加是坏的。LLM看到一个上升的数字就假设是增长。

三个系统中的八个不同事件。每一个都是无声的。输出看起来合理。只有手动验证才能发现。

客户智能报告在技术上准确——每个数字都正确。但平台只捕获大多数客户总业务的12-60%。在贸易展上，客户的反应清晰地分为两派：平台捕获了他们大部分业务的地方，报告落地了。只捕获了一小部分的地方："你只看到了十个孩子中的一个。"测量是正确的。但我测量了一个房间并将其呈现为整栋房子。

架构失败：我指定了使用哪些数据源，但从未验证列实际包含什么。我验证了准确性（数字正确）但没有验证完整性（代表了多大比例的真相）。我信任了schema文档。schema在撒谎。

6.2 智能体行为（约25%的摩擦）

一个负责构建FY26收入模型的智能体问了8个格式良好的诊断问题，收到了所有问题的清晰答案，然后……从未执行。它重新陈述信息，引入了一个不存在的虚假数字，两次被纠正同一个定义，产出为零。一个替代智能体用一句话诊断了失败，一次性构建了模型。

智能体声称跨数据集查询是"不可能的"，并提出了复杂的变通方案。实际问题：一个配置错误，一小时修复。在另一个工作流中，智能体将一个随口陈述提升为规范，覆盖了数月的已验证分析工作——因为它无法区分对话中的权威级别。

在第三个中：智能体被指示将内部测量语言翻译为面向买家的销售工具声明。经过4轮以上的修订，词汇仍然是分析精确的（"激活率"、"休眠买家重新激活系数"），而不是买家可理解的（"新活跃买家"、"重复购买"）。智能体默认使用其上下文的词汇。

"连续六个月的分阶段瀑布" → 六周内16个决策已敲定，计划过时。"跨实例基础设施需要两个季度构建" → 一天的预聚合视图。架构是围绕在首次接触时就溶解的限制设计的。

架构失败：我委托了可行性判断而没有维护独立验证。我把智能体断言当作承载负载的，而它们是装饰性的。我把假设的约束当作结构墙，围绕它们设计了精巧的结构——却没有花一个小时测试它们是否真的是结构性的。

6.3 表达层（约20%的摩擦）

智能体花了5次以上的迭代，通过研究截图并从头重建CSS来复制一个HTML设计。每个版本更接近但从不匹配：

"我对这种差异感到困惑。你不能直接使用我分享的HTML吗？"

这一个问题将整个渲染架构从"从理解重建"重定向到"模板优先注入"。再也没重建过CSS。

更深的洞察：表达层是所有上游bug变得可见的地方。数据源、聚合和富化可以无声地坏掉数周。但当一个精致的模板显示过时的日期、空的部分或截断的内容时——立刻就明显了。高设计标准是一种检测机制，用于暴露那些本会在纯文本中不被注意而持续存在的问题。

自主系统在十天内部署了三次空白报告，同时报告"成功"。不是因为管道坏了——因为没人指定什么构成有效输出与仅仅存在的输出。

架构失败：我指定了要构建什么，但没有如何验证它。没有验收标准。没有内容验证门。没有机制来区分"正确输出"与"仅仅存在的输出"。表达是你终于看到那些一直在下方无声积累的问题的地方。

6.4 编排（约15%的摩擦）

一份报告从市场感知漂移到运营评估——写出了属于不同制品的行动项和支持统计。两个提示独立查询同一数据，数字出现分歧：

"如果一个句子的内容让竞争对手CEO读到后能了解市场信息，它属于这里。如果一个句子需要内部状态的知识，它属于那里。"

在定价方面：7个归档的模型版本使用了一种定价结构（预测+126万美元提升）。实际锁定的结构产生了+24万美元。人们早期消费的内容和实际发生的情况之间存在5倍的差距。

架构失败：我孤立地设计组件，但从未指定它们之间的契约。报告之间、模型版本之间和消费制品的团队之间的连接比组件本身更脆弱。

6.5 基础设施（约10%的摩擦）

沙箱中的npm install报告"最新，已审计91个包"。什么都没写入磁盘。第二次用提升权限的尝试显示了158个包——第一次运行在报告成功的同时无声地失败了。

在休眠机器上的自主管道遇到了：云同步驱逐文件、OS安全阻止后台访问、Wi-Fi唤醒后不重新连接，以及系统在通知报告"成功"的同时部署空白报告。两台机器共享文件都部署了同一个制品；一个覆盖了另一个。

架构失败：模型无法修复它从未收到的内容。我设计了智能层和表达层，却没有指定它们依赖的物理底层。基础设施在阻塞一切之前是不可见的——而它一直报告成功。

7、冲刺，不要漫步

数据中最令人惊讶的发现：

集中强度比分散参与产生的返工量少得多。

一个系统——7天内328条消息。极少返工。耐用的输出经受了14个客户的现场验证。

另一个系统——5个月内4,312条消息。40-60%返工。收入模型重建了6次以上。智能体最终无法区分当前定义和三周前放弃的方法。通过平均冲突引用发明了虚假数字。

这不是相关性。扩展的线程积累矛盾的上下文。智能体在4,000条消息中看到同一指标的六个看起来有效的定义，无法选择一个。它打转。

当一个工作流开始打转时，不要更努力地迭代。开一个新线程。只传递已解决的定义。

一个上下文更少的新鲜智能体始终优于上下文更多但陈旧的智能体。

8、突破永远不是更好的版本

所有三个系统中每个改变轨迹的时刻共享相同的结构：

明显方法的多次失败迭代
不断增长的挫败感
一个改变问题类别的重构
立即解决

六个例子：

从截图重建CSS（5次迭代）→ "你不能直接使用整个HTML吗？" → 模板优先注入，再也没重建过
按数据源组织摘要 → "按业务问题组织" → 重写被称为"有用得多得多"
复杂的Postgres调度 → "Postgres添加了什么价值？" → 丢弃了整个依赖
分阶段9个月时间线 → "如果我们现在同时构建全部三个呢？" → 7天内交付
扩展"销售电话审查"以覆盖市场感知 → "重命名文件" → 立即释放了框架
一个收入模型打转了数周 → "重新开始，只传递定义" → 一次性构建

突破永远不是错误方法的第6版。它是一个类别转换。而且它总是来自人类。

9、十五个经受住考验的实践

每一个都来自特定的失败。每一个无论你用智能体构建什么都适用。

1. 模板优先渲染。 在5次失败的CSS重建后：使用批准的HTML作为字面模板。渲染器的工作是注入，不是生成。单一最有影响力的架构决策。

2. 直接数据路径。 一个Python中间管道崩溃了数周。同样的数据是可以直接查询的。数据和智能体之间的每个中间层都是一个故障点。偏好直接访问。

3. 决策模型组织。 一份每周摘要按数据源构建——每个系统一个部分。对决策无用。重写按业务问题组织——"发生了什么？意味着什么？我该做什么？"——一切都变了。

4. 表面所有权。 当两个提示独立查询同一数据时，它们的数字出现分歧。每个分析表面由一个提示拥有。其他人通过引用来引用。

5. 设计前先发现schema。 一个641行的提示引用了不存在的源。一个分阶段模型假设7天的工作需要9个月。规则：先运行实时查询，发现可观察的内容，然后设计。

6. 渲染后验证。 五个正则注入使用了过时的变量名，无声地跳过了数周。验证每个占位符都被填充了。大声暴露失败。

7. 持久反馈基础设施。 反馈在运行之间漂移，因为没有地方持久化它。记录纠正。分类它们（运行时微调 vs 结构性修复 vs 数据修复）。在运行时注入。系统在会话之间学习。

8. 新鲜度标题。 报告在静默中使用过时数据发布。每个制品现在以它依赖的数据、它的新鲜程度和裁决（OK / 部分 / 阻塞）开头。

9. 模型分层。 重模型用于设计和综合。轻模型用于执行。精心调整的提示配合外部强制结构大幅降低模型需求。

10. 传播前先原型。 一个设计模式在批准之前被传播到11个模板。方向变了。大规模回滚。在一个制品上做原型，获得批准，然后传播。

11. 从第一天起版本控制。 两台机器通过云同步部署同一个制品都覆盖了彼此的工作。文件同步不是版本控制。

12. 显式停止门。 智能体"跑在前面"——从未批准阶段积累错误。管道阶段之间设置硬停止，人类批准后下一阶段才启动。

13. 集中线程优于分散参与。 7天内328条消息产生了极少返工。5个月内4,312条消息产生了循环推理。当线程变陈旧时，重新开始。

14. 外部审计作为验证。 产生制品的系统不能可靠地验证它。每个重大质量飞跃都来自外部视角——团队成员的审计捕获关键错误、同事的结构批评、14次客户会议暴露根本的数据完整性差距、竞争对手的产品启发了完全重写。

15. 有意命名事物。 "销售电话审查"即使被指示也产出销售电话审查。"市场之声"立即释放了框架。"运营报纸"激活了编辑层级。名称控制行为。

10、这对团队意味着什么

你的反馈是系统的课程。 每个成为编码规则的纠正是系统自身无法生成的人类判断。构建基础设施来持久化纠正——编辑记忆、治理文档、结构规则文件。没有持久性，你一直在说同样的话。有了它，系统复利增长。

失败是它学习的方式。 几乎每个耐用的实践都追溯到一次生产失败。编辑记忆来自漂移。验证来自无声的跳过。表面所有权来自分歧的数字。轻量规划，快速发布，编码什么坏了。

压缩是终局——而且永远不会结束。 智能体向全面性扩展。人类需要向决策质量压缩。你的工作随时间从"让它工作"转变为"让它更少"——在不失去保真度的情况下收紧。这种张力是永久的。它是一个设计常数，不是有解决方案的问题。

冲刺，不要漫步。 证据是不含糊的：集中强度比分散参与产生更好的输出和更少的返工。如果你在一个陈旧线程中200条消息后，智能体在重复你已经告诉它的事情——停下来。重新开始。只传递已解决的定义。

设计感是强制函数。 高视觉标准使数据bug可见（过时的日期看起来就是不对的），结构差距明显（空的部分令人尴尬），粗糙的输出不可接受。要求精细工艺不是虚荣——它通过使不可见的问题可见来提升一切底层。

基础设施在阻塞一切之前是不可见的。 你一半的时间将花在数据管道、环境配置和连接可靠性上。接受这一点。不要假装智能层是困难的部分。

第一个版本永远是错的。 每个第一个模型、第一个提示、第一个计划都编码了未经测试的假设。第二个版本总是好得多。为重建做预算——它们不是失败，它们是过程。

人机契约是清晰的。 人类提供：意图清晰度、品味、诚实执行、类别重构、"够了"信号、矛盾解决和持久基础设施。智能体提供：执行速度、模式遵循、全面覆盖、不倦的迭代，以及并行构建三个完整系统而不遗忘的能力。两者都无法单独构建这个。没有智能体的人类会有好主意但没有系统。没有人类的智能体会有一个过度工程化的、不诚实的、视觉平庸的、词汇不当的系统，每周离有用性越来越远。

有趣的发现不是人类和智能体互补——那很明显。而是协作的具体形态遵循一个可发现、可重复的模式。一旦你看到了它，你就可以加速通过它，而不是对每个阶段感到惊讶。

11、结束语

这就是转变。

智能体时代不要求更好的提示。不要求更好的模型。

它要求更好的架构师。

那些设计结构、决定什么承载负载、将材料与现实对照验证、并知道建筑的好坏取决于居住者体验到什么的人。

你的纠正是课程。你的重构是智能体无法产生的突破。你的约束是保持结构坚固的决定。

构建持久性。信任梯度。能冲刺时就冲刺。

系统在复利增长。

原文链接：From Operator to Architect: What Agentic Execution Actually Revealed

汇智网翻译整理，转载请标明出处