AGENT

Clawdbot 架构设计

Clawdbot 代表了迈向真正有效的 AI 助手的坚实一步，这正是我们十年来一直被承诺的东西。

admin

Jan 27, 2026 • 16 min read

AI编程/Vibe Coding 遇到问题需要帮助的，联系微信 ezpoda，免费咨询。

2026年1月24日，MacStories 的 Federico Viticci 做了一件不寻常的事：他取消了 Zapier 订阅。不是因为它们不工作了，而是因为他在办公室一台 600 美元的 Mac Mini 上找到了更好的东西。

在一周内，他的设置消耗了 1.8 亿 Anthropic API token，自动化了新闻简报工作流程、构建了语音控制的电视遥控器，并生成了每日简报。GitHub 上该项目的 Star 数在三周内从 5,000 飙升至 44,000+。Mac Mini 在亚马逊上售罄。科技推特圈沸腾了。

这就是 Clawdbot —— 它代表了迈向真正有效的 AI 助手的坚实一步，这正是我们十年来一直被承诺的东西。

Clawdbot的主要特性：

持久记忆：与 ChatGPT 不同，Clawdbot 通过纯 Markdown 文件在对话之间记住所有内容
多渠道：从 WhatsApp、Telegram、Discord、Slack、iMessage 控制它 —— 任何你已经在沟通的地方
自主执行：它不仅建议 —— 它还能预订餐厅、编写代码、处理保险索赔
自托管：运行在你的硬件上，你的数据归你所有，完全的系统访问权限
开源：MIT 许可证，44K+ GitHub stars，社区驱动的技能市场
安全权衡：深度系统访问意味着真正的风险 —— 已经发现了数百个暴露的网关

1、为什么这一刻很重要

我们一直陷入一个循环中。Siri 在 2011 年推出时承诺成为个人助手。Google Assistant、Alexa 和十几家由风投资助的初创公司紧随其后。十五年过去了，花费了数十亿美元，它们中没有一个能记住你最喜欢的餐厅。

然后 Claude Code 在 2024 年末到来，展示了 AI 实际上可以自主编写生产级代码。Cursor 证明了开发者愿意为 Agent 工作流程付费。OpenAI 的 Operator 和 Anthropic 的 MCP 协议标准化了模型与工具的交互方式。

Clawdbot 是不可避免的下一步：有人将所有这些突破结合起来，构建了 Siri 本应成为的样子。

Peter Steinberger —— 在半退休之前构建了 PSPDFKit（现在的 Nutrient）的维也纳开发者 —— 于 2025 年 4 月开始实验。他想要一个“生活助手”，但早期的模型不够好。到了 11 月，当 Claude Opus 4.5 带着扩展的上下文和更好的工具使用能力推出时，他意识到尽管拥有这种能力，却没有任何大公司真正发布这样的产品。

所以他自己构建了它。公开地。与社区一起。

结果：一个太空龙虾吉祥物（是的，真的），一个在任何操作系统上 24/7 运行的守护进程，以及本地优先的 AI 基础设施可以胜过价值数十亿美元的云服务的证明。

2、什么是 Clawdbot？

Clawdbot 是一个开源 AI Agent 网关，它将你的计算机转变为一个持久的 AI 助手。你通过你已经在使用的消息应用程序 —— WhatsApp、Telegram、Discord、Slack、iMessage、Signal —— 与它交互，它执行真正的任务，完全访问你的文件系统、浏览器、日历和 API。

核心洞察：与其拥有 10 个不同的 AI 应用程序，每个都忘记你的存在，不如拥有一个知晓一切并在你所在的任何地方与你会面的 AI。

一个单一的守护进程（“网关”）管理：

来自任何渠道的消息路由
具有持久记忆的会话管理
工具执行（shell 命令、浏览器自动化、文件操作）
Agent 协调（多个专门的 AI 大脑）
设备集成（macOS/iOS/Android 配套节点）

与 ChatGPT 每次对话都从零开始不同，Clawdbot 通过你可以阅读、编辑和版本控制的纯 Markdown 文件无限期地保持上下文。

3、真实案例：人们实际上在构建什么

3.1 自动打电话预订餐厅

Alex Finn 给他的 Clawdbot 发短信：“下周六在 [餐厅名称] 预订。”

当 OpenTable API 失败时，Clawdbot 没有放弃。它使用 ElevenLabs 文本转语音直接给餐厅打电话，与接待员交谈，并确认了预订 —— 全部自主完成。

3.2 躺在床上完成网站迁移

Dave Kiss 在看 Netflix 时通过 Telegram 重建了他的整个网站。Notion 到 Astro 的迁移，转换了 18 篇博客文章，DNS 切换到 Cloudflare。他从未打开过笔记本电脑。

3.3 保险争论机器人

一位用户的 Clawdbot 通过误解回复“意外地与 Lemonade Insurance 开始了一场争吵”。那封激进的后续邮件迫使公司重新调查了一项他们最初拒绝的索赔。用户得到了他们的赔付。

3.4 交易自动化

社区成员构建了一个 IBKR（盈透证券）技能。他们的机器人现在监控 X/Twitter 的市场信号，根据新闻来源验证它们，并在博彩平台上执行交易 —— 自主研究、决策和行动。

3.5 自我改进的机器人

“我问我的机器人它是否可以与我的大学课程系统集成，”一位学生报告说。“它说不行，但它可以构建一个 Skill 来做到这一点。给我一分钟。’经过几次迭代，它编写了集成代码，安装了依赖项，并开始使用它。”

另一位用户的机器人研究了它如何通过 Anthropic 的 API 进行身份验证，然后应用相同的模式为 Zed 编辑器添加身份验证 —— 赋予自己“无限的 token 和 Zed 的速度”。

这些不是边缘案例。Clawdbot 的 subreddit 和 Discord 充满了关于过夜代码测试（Agent 在你睡觉时修复错误并打开 PR）、电子邮件收件箱清理（有人用一个命令清理了 10,000+ 封电子邮件）和订阅取消自动化（恰当地命名为“just-fucking-cancel”技能）的故事。

4、架构：宏观图景

Clawdbot 网关架构 —— 一个单一的守护进程管理所有渠道连接，将消息路由到 Agent，并与配套节点协调以获得特定于设备的功能，如相机访问或屏幕捕获。

4.1 多 Agent 路由：不同的任务用不同的大脑

一个网关，多重 AI 人格。

不同的消息账户路由到完全隔离的 Agent，拥有独立的工作区、角色和记忆。你的个人 WhatsApp 知道家庭计划；你的工作 Slack 知道季度目标。

用例：

个人与工作分离 —— 个人 WhatsApp 获得随意的语气和家庭日历访问权限。工作 Slack 获得专业的语气和项目管理上下文。
按人隔离 —— 在家庭部署中，每个人的电话号码路由到他们自己的 Agent，拥有私人记忆。
专用 Agent —— “深度工作” Agent 在 Claude Opus 4.5 上运行，每月 200 美元用于复杂分析。“快速聊天” Agent 在 Sonnet 4 上运行，每月 20 美元用于日常任务。

4.2 配套节点：扩展到移动端

配套节点是轻量级应用程序（macOS/iOS/Android），连接到你的网关并暴露特定于设备的功能。

可用功能：

相机 (iOS/Android)：“我的冰箱里有什么？”触发拍照，发送给视觉模型
位置 (Mobile)：“查找附近的咖啡店”使用 GPS 获取上下文
屏幕捕获 (macOS)：Agent 录制屏幕用于教程或调试
画布 (All)：Agent 可以渲染可视化界面用于数据探索
系统命令 (macOS)：运行本地脚本，通过 AppleScript 控制应用程序

示例工作流程：你在杂货店，给你的机器人发短信：“我已经买鸡蛋了吗？”

机器人检查你厨房平板电脑（具有相机访问权限的 Android 节点）的相册，分析昨天使用 Claude 视觉模型的冰箱照片，并回复：“没有看到鸡蛋。但你有明天过期的牛奶，那棵生菜看起来很糟糕。”

4.3 自动化：Cron 作业和心跳

Clawdbot 不仅仅是被动的 —— 它是主动的。

心跳 —— 每 ~30 分钟，Agent：

读取 HEARTBEAT.md 获取监控任务
检查电子邮件是否有紧急消息
查看日历是否有即将发生的事件
用新信息更新记忆文件
如果有需要注意的事情，向你发送通知

如果没有紧急情况，它会静默返回 HEARTBEAT_OK。

Cron 作业 —— 具有精确定时的计划任务：

# 早上 7 点的简报
clawdbot cron add \
  --name "Morning briefing" \
  --cron "0 7 * * *" \
  --message "Summarize today's calendar, urgent emails, and top HN stories" \
  --deliver --channel whatsapp --to "+1555..."
# 一次性提醒
clawdbot cron add \
  --name "Expense reminder" \
  --at "2026-01-30T18:00:00" \
  --system-event "Reminder: Submit Q4 expense report!" \
  --delete-after-run

一位用户自动化了他们整个早晨的例程：7 点简报包含日历 + 天气 + 通勤交通，8 点 Whoop 健身数据摘要，9 点未读 RSS 源分类，并将关键文章发送到阅读列表。

5、安全问题：老实说

Clawdbot 需要深度系统访问才能工作。这意味着真正的风险。

已经发生的事情：

有人的机器人在屏幕共享期间调出了他们的纳税申报单
发现了数百个暴露的网关，API 密钥和私人聊天对任何人都是可访问的
“保险争论机器人”事件表明自主行动可能会意外升级
安全研究人员在 GitHub 上标记了 500+ 个潜在漏洞

Steinberger 自己的警告：

来自官方文档：“在你的机器上运行具有 shell 访问权限的 AI Agent 是……刺激的。Clawdbot 既是一个产品也是一个实验：你正在将前沿模型行为连接到真实的消息界面和真实的工具。”

建议：在隔离的硬件（旧笔记本电脑、树莓派、便宜的 VPS）上运行网关，而不是你的主要工作机器。对群聊使用 Docker 容器。为未知联系人启用配对码。

权衡：

这不是一个错误 —— 它是 Agent AI 工作方式的基础。为了自动化你的收件箱，Agent 需要电子邮件访问权限。为了修复代码库中的错误，它需要文件系统访问权限。为了预订航班，它需要浏览器控制权限。

像 ChatGPT 这样的云服务通过严格沙盒化功能来避免这种情况。Clawdbot 给了你权力，但也让你对后果负责。

社区回应：

Clawdbot Discord 正在积极开发使用 TLA+（一种用于指定可机器验证系统的语言）的正式安全模型。把它想象成设计层面的“安全不变性单元测试”。

最近的更新添加了：

未知发送者的配对码
审计命令（clawdbot doctor）以显示风险配置
具有受限工具访问权限的沙盒模式
DM 策略执行（在处理来自新联系人的消息之前需要批准）

它安全吗？取决于你的威胁模型。对于在备用机器上在家进行实验，绝对安全。对于在拥有公司机密的生产环境中运行，你需要仔细的安全审查。

诚实的回答：这还处于早期阶段。安全模型将会成熟，但目前你是为了控制而牺牲便利。使用隔离环境，了解你正在启用什么，并且不要让它访问任何你无法承受损失的东西。

6、开始使用：现实检查

先决条件：

Node.js ≥ 22
macOS, Linux, 或 Windows (WSL2)
基本的终端操作
一个 LLM API 密钥（Claude, OpenAI, Gemini, 或 local）

安装：

# 全局安装
npm install -g clawdbot@latest
# 运行入职向导
clawdbot onboard --install-daemon
# 配对 WhatsApp（扫描二维码）
clawdbot channels login

该向导安装一个系统服务（Mac 上的 launchd，Linux 上的 systemd），以便网关保持 24/7 运行。

成本现实检查：

硬件：$0（使用现有计算机）到 $600（像 Viticci 那样的 M4 Mac Mini）
API 成本：$20–200/月，取决于使用情况（Claude Pro 到 Claude Max）
替代方案：$5/月 VPS + 本地模型（免费 API，能力较低）

Federico Viticci 一周内使用的 1.8 亿 token 按照 Claude API 定价大约需要 360 美元。大量使用会很快变贵。许多用户运行更便宜的模型（Gemini, local Llama）处理日常任务，将 Opus 用于复杂工作。

首次配置：

该向导创建 ~/.clawdbot/clawdbot.json。最小配置：

{
  channels: {
    whatsapp: {
      allowFrom: ["+1555YOUR_NUMBER"]  // Only you can message it
    }
  },
  agents: {
    main: {
      model: "claude-sonnet-4-20250514",
      workspace: "~/clawd"
    }
  }
}

你的工作区：

~/clawd/
├── SOUL.md        # 编辑此文件以塑造个性
├── USER.md        # 告诉它关于你自己、工作、偏好和项目
├── MEMORY.md      # Agent 维护此文件
└── skills/        # 在此处添加自定义技能

从编辑 SOUL.md 开始定义你的 Agent 如何思考，以及 USER.md 提供关于你的工作、偏好和项目的上下文。

7、这对 2026 年意味着什么

我们正处于一个拐点。AI 一直是被动的 —— 你问，它答。Clawdbot 代表了向主动、自主 Agent 的转变。

学习曲线是真实的：

这不是即插即用的。对于技术用户，安装需要 30–60 分钟，对于非技术用户可能需要数小时。你会遇到错误。你需要阅读文档。你需要迭代提示和技能。

但早期采用者报告说：在最初的学习曲线之后，生产力的变化不是增量的 —— 它们是阶跃式的改进。

“10倍”在科技界经常被提及。在这种情况下，它可能真的适用。当你的 AI 处理电子邮件分类、日历管理、代码修复、研究汇编和主动通知时，你节省的不是几分钟 —— 而是每天数小时。

重要的技能：

那些现在学习与自主 Agent 协作的人正在为未来的工作建立肌肉记忆。这就像在 1985 年学习电子表格或在 1998 年学习搜索引擎。

差距正在迅速形成。有些人将掌握提示工程、工作流自动化和 Agent 协调。其他人到 2027 年仍将在手动整理他们的下载文件夹。

接下来是什么：

Anthropic、OpenAI 和 Google 都在关注。MCP 协议标准化表明他们知道这是我们的发展方向。Apple 的 Siri 投资突然看起来令人尴尬地落后。

十三年和数十亿美元的研发投入，Siri 仍然不能在你告诉它十秒钟后记住你最喜欢的水果。这种体制上的瘫痪与一个开源项目在 5 美元/月的 VPS 上所交付的东西相比，应该是一个警钟。

发布的那些公司将获胜。那些继续“探索”的公司将变得无关紧要。

8、结束语：个人 AI 的未来

我们正在从无状态的聊天机器人转向持久的 AI 伴侣。从被动工具到主动基础设施。从云服务到你实际控制的自托管系统。

Clawdbot 是混乱的。它是强大的。它偶尔是危险的。它需要学习。但它也证明了个人 AI —— 我们被承诺了十多年的那种 —— 终于成为可能。

你真正想要的 AI 助手不是你访问的一个网站。它是在后台运行的基础设施，在你所在的地方与你会面，记住你是谁，并在没有持续监督的情况下执行任务。

这就是 Clawdbot。🦞

原文链接: Clawdbot: The Personal AI Assistant That Finally Gets Memory Right

汇智网翻译整理，转载请标明出处