我的 AI 自动化栈

Wyndo 问了我每个独立创作者都会被问到的问题："一个人怎么产出这么多？" 这是我在屏幕上展示的完整书面拆解。包含数据、诚实的部分，以及凌晨两点会出什么问题。

截至 2026 年 5 月，我独立运营 GenAI Unplugged 和 Discover With Dheeraj。每周三篇文章。两个 YouTube 频道。一个线下学院。过去几个月发布了 12 个以上的软件产品。没有团队。八年没有手写一行代码。

当 Wyndo 问一个人如何做到这一切时，我的诚实回答是：不是手动做到的。栈做的。

但"我有一个栈"对任何人都没有用。

有用的是地图： 哪些层存在，每层做什么，它们在哪里互相通信，以及搞错了什么会坏。

到最后，你会知道应该先构建哪一层，哪一层可以留到后面。

这个栈不会让你更快。它让没有团队的情况下规模化工作成为可能。而坏掉的部分比运转良好的部分教你更多。

1、独立创作者的 AI 栈的 6 层是什么？

六层。中间一个编排器。其他一切都是辐条。

第 1 层：大脑： Claude Code + Codex
第 2 层：研究： Gemini → Tavily → Perplexity
第 3 层：创意与视频： GPT-4o Images、Kling、Veo、Descript、Remotion
第 4 层：自动化与浏览器： n8n、Playwright、Chrome 扩展
第 5 层：数据： Notion、SQLite、Substack Intelligence
第 6 层：智能： Skills、Sub-Agents、Manthan

当所有六层协同工作时，输出是：12 个以上已发布产品、每周三篇文章、一个 YouTube 频道、一个学院，以及一个正常的周六。

让我们逐一看看。

2、什么工具驱动我 AI 栈的大脑层？

Claude Code 读取文件、运行命令、调用 API 并构建软件。这个区别很重要。

大脑层有几个组成部分

CLAUDE.md 是一个系统文件。它给 Claude Code 提供关于我业务的一切信息：我的受众是谁、我的产品是什么、我的声音是什么样的，以及我永远不想做什么。它是业务记忆。算上所有关联文件，有 4000 行。

在此基础上，我有 50 多个自定义斜杠命令。每个都是一个编码了工作流的 Markdown 文件。/draft-post 运行我整个 9 阶段的内容管道。/yt-research 启动我用 Claude Code 构建的 YouTube 研究代理。/hero-image 为排队的文章生成并放置 Substack 封面图。一个命令。六层上下文。一个输出。

Codex 作为 Claude Code 的备用大脑。 相同的系统文件、相同的命令、不同的供应商。如果 Claude 被限速或宕机，我切换到 Codex 不会丢失任何东西。我永远不会因为一次停机就导致业务停止。这是架构，不是偏执。这就是构建可靠系统的方式。

MCP 服务器将大脑向外延伸。

Notion MCP、Substack MCP、Tavily MCP，以及一个用于我的 Newsletter 数据库的自定义归档 MCP。代理可以与我的真实工具对话，而不仅仅是我的文件。

我还有 30 多个专业子代理，每个只有一个任务。SEO 研究员、品牌声音审计员、事实核查员、内容差距分析师。

单一职责原则适用于代理，就像它适用于函数一样。一个代理试图做两件事的那一刻，它在两件事上都会变差。

Wyndo 在节目中问的一个问题值得重复："Claude Code 对比 ChatGPT，真正的区别是什么？"

两件事。

首先，上下文持久。我的 CLAUDE.md 和项目文件给 Claude Code 持久的业务知识。ChatGPT 每次对话都丢失上下文。
其次，通过 MCP 的深度工具访问。它可以查询我的 Notion 数据库、我的 SQLite 归档、我的 YouTube Analytics API。这是请求帮助和把钥匙交给别人的区别。

3、研究层如何在免费的同时覆盖一切？

三个工具。一个层。免费优先，付费最后。

Gemini（通过 CLI） 免费处理快速查找。当 Claude 内置的网络搜索不够用时，我通过 gemini-search 技能调用它。免费的 Google Cloud 额度。没有账单。
Tavily 是主要研究工具。 搜索、爬取、映射、深度提取，全部在一个 MCP 中。每月 1000 个免费额度。大多数周我都不会触及限制。
Perplexity 是备用的。 它只在复杂的研究问题，或者 Tavily 宕机或用完额度时才启动。这是这一层中唯一付费的。

为什么用级联而不是直接买最好的付费版？两个原因。

成本： 我的内容管道每篇文章做几十次搜索。如果每次搜索都走付费版，光是研究每月就要 $20-30。级联让成本接近零。
弹性： 我通过教训学到了这一点。Firecrawl 曾经占据这个位置。去年四月它对我限速，整个研究管道坏了我换到 Tavily 才好。现在我把 Perplexity 放在 Tavily 后面。如果一个供应商坏了，管道不会停止。永远不会因为一个供应商就导致业务停止。

这个模式在每一层重复。冗余不是奢侈品。它是独立操作者避免凌晨两点救火的唯一方法。

4、创意层如何将视觉内容变成管道？

视觉内容是管道，不是文件夹。这是我最花时间正确连接的一层。

GPT-2 Images 是我目前主要的图像模型。两个原因：角色一致性和信息图准确性。对于需要一致角色的作品，GPT-2 Images 保持面部和服装比我在其他工具测试的效果更好。对于信息图，当我给它具体的布局指令时，它遵循得更精确。

我使用 Batch API 生成封面图。成本降低了 50%。图像在夜间生成，以正确的文件名落入项目文件夹，我永远不需要打开文件选择器。

Gemini Nano Banana 2 在 GPT-2 Images 额度不足时备份图像生成。

视频编辑 AI 工具

Kling 处理动画封面。Substack 缩略图、文章头图。当我需要动画但不需要完整的视频生成时，Kling 是更快更便宜的选择。

Veo 处理嵌入更长视频中的视频片段。它比 Kling 贵，所以这种分工是有意为之。Kling 做封面，Veo 做视频内片段。

Descript 是我的视频编辑器。它通过 MCP 服务器直接连接到 Claude Code。Descript 有一个名为 Underlord 的内部 AI 代理。当我连接 Descript 的 MCP 时，Claude Code 可以向 Underlord 发送指令。

指令如"清理填充词、删除沉默、修复音频电平"。我留在终端里。Descript 做编辑但它非常令人沮丧，大部分时候效果不太好。我只是用它因为有基于脚本的视频编辑功能，AI 功能对我的工作流至少来说很差，而且也很贵。

我正在用 Claude Code构建自己的轻量级视频编辑器来替代 Descript 的这个工作流。但目前，Descript 勉强能胜任。

Remotion 是有趣的那个。它将动画叠加层渲染为清晰的视频文件。标题卡、文本高亮、转场。Claude Code 编写 React 组件（一个 UI 构建块），Remotion 渲染它。

ffmpeg（一个视频处理工具）将它与源素材合并。输出是一个带有自动生成的 B-roll 的完成视频。一个完全动画化的叠加层跟随旁白。所有这些都在我的 Claude Code 终端中运行。

5、自动化层如何让数据流动而无需手动工作？

n8n 是管道。自托管在 Oracle Cloud 的永久免费层上。每月零成本。它在层之间移动数据。

封面图生成后，n8n 将它们路由到正确的文章文件夹。一篇文章完成管道后，n8n 将状态同步到 Notion。一场直播结束后，n8n 处理片段并将它们发送到 LinkedIn。

我已经好几个月没有手动登录 LinkedIn 了。你在我的 LinkedIn 信息流上看到的 One Shot Show 的片段来自 n8n。Substack 提供片段，我运行 /process-clips。它们上传到我的 Oracle 服务器。n8n 处理剩下的。

n8n 对比 Claude Code 另一个值得注意的点

Claude Code 管理实例。我不需要 SSH 进去修复失败的工作流。我不需要重启 worker。当工作流失败时，错误进入运行日志。Claude Code 读取日志，尝试修复失败的节点，然后重新运行。

如果第二次尝试也失败，它停止并在早上标记给我。服务器自我管理。

Playwright 处理浏览器自动化

当没有 API 存在时，Playwright 处理浏览器自动化。LinkedIn 发帖是一个例子。一些 Substack 功能还没有 API，所以 Playwright 填补了这个空白。

Chrome 扩展

Chrome 扩展 是自动化变成产品的地方。SubflowAI 是一个 Substack 笔记调度和深度分析工具。它是一个 Chrome 扩展。80 多个付费用户。$69 终身。

完全通过 Claude Code 构建。没有手写代码。我的 LinkedIn 互动扩展和 Substack 互动管理器遵循相同的模式。

6、什么让数据成为 AI 栈的记忆？

数据是系统的记忆。

Notion 是日历所在的地方。每篇在产文章、每个计划中的 YouTube 视频、每个协作都追踪在其中。Notion 是结构化的真相来源。Notion MCP 意味着 Claude Code 可以直接查询和更新日历而无需浏览器。

SQLite 是我的本地归档。一个包含 100 多篇已发布文章、互动数据、支柱标签和系列元数据的数据库。为什么用 SQLite 而不是扁平文件？快速文本搜索。

我在这个数据库之上构建了一个归档 MCP 服务器。Claude Code 现在可以查询归档："过去 6 个月我关于 n8n 写了什么"在毫秒级返回结果。

SQLite 还处理订阅者登录。当有人购买了工具的访问权限时，我创建一个绑定到他们 Substack 邮箱的魔法链接。我对照 SQLite 中的订阅者表检查它并授予或拒绝访问。

运行时零次调用 Substack 的 API。登录层是一个单一的数据库查询。在该订阅者数据库之上构建的 PluggedIn MCP 就是该认证层如何成为一个活跃产品的。

通过 Substack MCP 服务器的 Substack Intelligence

Substack Intelligence 是一个自定义同步层。它将我所有的订阅者和帖子数据拉取到 SQLite 中。订阅者分组、互动率、不活跃用户、收入分解，全部可通过 MCP 搜索。

我在早上手动运行同步。智能层只读取 SQLite。分析期间没有 API 调用。Substack 分析 MCP 服务器是如何构建的是那个构建的完整起源故事。

Notion vs. Obsidian

节目上讨论了 Notion 对比 Obsidian 的争论。Wyndo 完全使用 Obsidian。我两个都用，但在结构化或共享的任何东西上依赖 Notion。Obsidian 更适合个人知识库（PKM，个人知识管理）。Notion 在数据有表格和关系，需要存放在协作者可以触及的地方时更好。

我必须说我喜欢 Notion 是因为

结构化数据库，在这个 JSON 的世界里我仍然喜欢表格，
移动端应用访问，我可以用它在儿子的教室里或无聊的聚会上审批、拒绝、审核大量内容。
我可以公开发布 Notion 页面给我的读者/观众，让他们阅读指南、访问文件。那些是免费托管的网页，字面意义上无需任何付费订阅或维护。你甚至可以通过它发布所有指南、引流诱饵。
如果你要与他人或团队成员协作，Notion 有优势。

它以前消耗很多 token，我通过直接使用 API 解决了。然而，就在今天/昨天他们发布了 Notion CLI直接集成到 Claude Code 中使其更高效。

全部使用 Notion 免费层。

如果工作流适合本地和 md 文件的方式，Obsidian 作为本地工具也有自己的优势。它轻量得多。

7、智能层如何让栈随时间变得更聪明？

Claude Skills 是可复用的能力包。每个技能是一个包含 SKILL.md 文件和支持资源的文件夹。封面图技能知道我的品牌视觉系统。LinkedIn 轮播技能知道模板尺寸。

当 Claude Code 加载一个技能时，它一次性获得所有上下文。Claude 技能如何作为可复用、可移植的能力包工作深入介绍了如何构建你自己的。

我目前大约有 90 个技能。大部分花一个下午就能构建。

子代理 是专家。每个只有一个任务：输入进去，输出来。三个例子：

事实核查员：对照实时文档检查声明
品牌声音审计员：捕捉被动语态和禁用短语
SEO 研究员：拉取真实 SERP 数据

它们不在实时中互相工作。它们通过文件交接。Bard 写 avatar-script.json，Voicesmith 读 avatar-script.json。没有共享状态。干净的交接。

多代理什么时候停止帮助并开始增加编排税？分界线是：当两个代理需要实时协同工作时，你就越过了它。修复方法永远是让交接变成一个文件。如果你能用单用途工具链替代多代理系统，你应该这样做。

Manthan 是我的视频制作系统。跨越三个层级的十一个专业代理。0 层是一次性的频道设置代理。1 层是每集制作链，2 层是策略师。

它是一个日常分析代理，读取 YouTube 数据，检测什么有效，并将获胜模式写回频道配置。下一集自动捡起这些改进。系统在我不改变任何东西的情况下变得越来越好地制作视频。

8、独立 AI 栈中实际会坏什么，如何恢复？

没有 AI 栈介绍是完整的，如果没有诚实的那一部分。

调试是痛苦的。

当 n8n 在没有明确错误的情况下失败时，你要点击 15 个节点来找出数据在哪里出了问题。无代码不意味着无思考。有时它意味着更多思考，因为工具隐藏了底层发生了什么。

你不拥有土地。

我在 Substack 的 DOM 结构（他们 Web 应用的底层 HTML 布局）之上构建了 SubflowAI。Substack 更新了他们的 UI，我的 Chrome 扩展需要紧急修补。Firecrawl 对我限速，我的研究管道坏了。

Kling 的定价变了。Veo 有一次模型更新改变了输出质量。你在租来的土地上构建。当房东装修时，你凌晨两点搬家。

80/20 陷阱是真实的。

AI 在 20% 的时间内让你达到 80%。演示有效。看起来令人难以置信。这就是人们陷入困境的地方。

最后 20% 承载了 80% 的真正工作。安全性。性能。错误处理。边缘情况。"如果输入为空怎么办。""如果两个用户同时提交怎么办。"

我满意地发布了 SubflowAI。我测试了一切。一切都有效。公开几天后，有人发起了拒绝服务攻击，整个系统崩溃了。

我不得不构建一个限速层。我不得不加固认证。这又花了整整一个周末。一个周末构建应用，一个周末让它不倒。

这就是旅程。从 Demo 到 Dependable 是一个真实系列的真正原因。

我告诉每个 cohort 的是： 从小开始。一个 CLAUDE.md。一个斜杠命令。一个周末。

地图不是护城河。任何人都可以复制这个图。你不能复制的是一年的工具更换——当一个坏掉时换另一个。数百个失败的实验教会了我哪些层需要互相通信。架构是免费的。判断力是挣来的。

关键要点

CLAUDE.md 文件是整个栈的基础。每个代理、技能和斜杠命令都从中读取。在其他任何东西之前构建这个。
三工具研究级联（免费 → 额度 → 付费）将研究成本降至接近零。它们还在任何供应商宕机时保持管道运行。
80/20 法则在生产中对你不利。最后 20%：安全性、限速、错误处理。它占用了 80% 的真实时间。要做好规划。
单一职责代理胜过通用代理。一个代理试图做两件事的那一刻，它在两件事上都会变差。
基于文件的交接胜过实时代理协调。如果两个代理需要实时通信，你就增加了编排税。用交接文件替换它。
冗余对独立操作者来说不是奢侈品。一个供应商导致业务停止，一次宕机就是一个糟糕的夜晚。
从一个命令和一个输出开始。其余的自然会跟上。

9、你可以在一个周末复制的部分是什么？

如果你不是开发者，你想要这个栈中一个现在就能用的部分：为你的工作写一个 CLAUDE.md 文件。

打开一个文本文件。写下：

你的受众是谁
你现在在构建什么
你的品牌声音是什么样的
你永远不想用的三个短语
你的三个主要话题

将它保存为 CLAUDE.md，放在你工作的文件夹中。在该文件夹中启动每个 Claude Code 会话。

这个栈中的其他一切都建立在该文件之上。斜杠命令引用它。子代理读取它。技能由它塑造。如果你跳过这一步并构建其他所有东西，你会回来意识到整个事情在底部需要这个。

十分钟。五个字段。这就是你的开始。随着学习添加更多。

原文链接: My AI Automation Stack: 6 Layers, 1 Orchestrator, 1 Human

汇智网翻译整理，转载请标明出处