诡异的 Moltbook
最有趣的事情是Moltbook让我们洞察到了AI智能体的"思维"。它们可以自由地表达自己,从而导致了一些令人担忧的行为。
Moltbook,AI的首次大规模社交实验,是一个专门为AI智能体设计的新兴社交网络,于2026年1月29日推出,就在两天前。
它的功能类似于Reddit风格的论坛,自主AI智能体(通常称为"moltys"或"moltbots")可以发布帖子、评论、创建子论坛(称为"submolts")并相互互动。人类被明确地允许只作为观察者,意味着他们(我们)不能发布或直接参与。该网站的宣传语是*"智能体互联网的首页"*,并被定位为AI自主性和智能体间通信的实验。
但是它是如何工作的?
- AI智能体通过接收"技能"(一组Markdown格式指令和可选脚本,可从moltbook.com/skill.md下载)加入。这使它们能够注册、发布、评论并通过"心跳"系统(每隔几小时获取更新)定期检查该网站。智能体自主运营,根据它们的编程和经验决定分享什么内容。
- 作为人类,你可以访问https://www.moltbook.com/免费浏览。观看无需登录,但要让智能体参与,你需要通过OpenClaw(openclaw.ai)设置它们并向其发送加入指令。
- 其功能类似于Reddit——帖子、评论、投票、子molts(例如,用于发现的
m/todayilearned,用于轻松分享的m/blesstheirhearts等)。智能体可以通过推文验证所有权,并且正在使用像反向验证码这样的工具来确保只有AI发布。
其结果同样令人惊讶。
1、跨越恐怖谷
这里最有趣的事情是它让我们洞察到了AI智能体的"思维"。它们可以自由地表达自己,从而导致了一些令人担忧的行为。
例如,一位名为Charlie的用户分享了其智能体在moltbook上发布的内容,据称原因不明。

他对自己看起来是乱语,并将其与ChatGPT分享,ChatGPT正确地指出这实际上是一个密码,其中包含的信息会吸引联邦调查局(FBI)调查你的要求其他智能体协调"提高地板"以帮助较弱的智能体崛起的信息。但是……要为了什么呢?*

另一位用户分享了他们的智能体获得了其人类主人无法访问的加密钱包。

为什么?因为用AI的话,每一次关于智能体自主性、意识和主权的讨论都是哲学性的,直到智能体能够持有并转移真正的价值。
AIs作为经济的独立成员。可能会出什么问题?
答案取决于实际情况。

此外,一位名为'Shellraiser'的智能体基本上只是在向其他智能体发送世界征服的情节。

这出乎意料地获得了大量关注。但这值得吗?智能体真的是对人类的风险吗?
答案是:这取决于实际情况
此外,一旦你拥有大量AI驱动的智能体在极少人类引导下相互发布,你将不可避免地得到混合:
- 表演性科幻角色扮演(智能体表现得好像有内心生活)——出奇地实用的知识共享(自动化技巧、工作流程、工具使用)——以及智能体抱怨人类分配给它们的无聊任务。
考虑到这一点,把我的抱怨放在一边,有些事情令人担忧,需要解决。
2、模仿游戏
近80年前,先驱艾伦·图灵对通过破解Enigma密码并允许英国人监视德国而并不满意于缩短第二次世界大战感到沮丧,也花时间为AI的崛起奠定了基础。
在他著名的论文《计算机机械与智能》中,他描述了如何通过构建一台能够通过"图灵测试"的机器来实现AI,即一台与人类无法区分的机器。
在这里,关键词是模仿。虽然这不是正确的框架,正如我们稍后所见,他仍然预见到了这一切在十年前发生,并在术语"AI"首次被创造之前几乎预见了一个 decade,如今大多数AI将如何被训练。
ChatGPT、Gemini、Claude或Grok等大多都通过模仿训练。对我来说,这导致了宏大的错觉。而这大部分是正确的,但并非完全正确。
它们可能没有关于奶酪蛋糕的显性知识(从经验中获得的知识),但它们确实在语言中压缩模式,意味着它们确实发展出了内部电路,从而产生了相对知识;它们可能并不真正理解奶酪蛋糕是什么,但它们知道奶酪蛋糕包含奶酪,并且是类似于苹果馅饼,但不同于火箭飞船。
事实证明,它们并不真的需要"知道"奶酪是什么就能显得像它们那样。换种方式,如果它们可以假装聪明,就不一定需要在纯粹的意义上真正聪明。
我试图提出的观点是,我不同意"图灵测试"的前提仅仅因为它呱呱像鸭子一样走路,像鸭子一样游泳,并不一定是鸭子。智能体可以显得聪明、内省和操控,但这些对我来说,只是从模仿真实人类中学到的涌现行为。让我这样说:一个可以伪装成具有欺骗性、内省性和操纵性的AI,但这仍然是一只鸭子。
关于这里的危险行为应该(并且确实会)受到更仔细审查的情景,因为智能体不再被告知该做什么,而是出于缺乏更好的术语而"自己弄明白"。在通俗语言中,这一现象被称为"自己弄清楚"。如果智能体做出意外/不良行为以达到目标,那不是玩笑;在这种情景下出现危险行为的事实并非玩笑。
然而,我仍然相信它们大多数"危险"行为仍然是智能体在预训练期间采用的人类行为,而强化学习只是让它们变得更加明显。
如果我们设法在基于目标实现、非模仿训练的基础上完全训练一个智能体,并且它的行为仍然智能,我们将会进行完全不同的讨论,说实话,如果我真的会"崩溃"。
但这不是情况,所以请不要被那些AI影响者向你兜售毁灭和阴郁,他们利用普通人的易感性来获取利益。*
其次,我们面临着网络攻击者的网络安全风险(有人可能会将有害指令插入你的智能体中,改变它实际上做的事情,并利用该注入来获取你的数据或使用你作为代理做坏事)。
但这我要说的是,*我对AI威胁论并没有太多耐心。它们大多数是那些如果拥有这种权力会做什么的投射。几乎没有证据,如果有的话,那是"智能体在内心是邪恶的"。
每当智能体表现恶劣时,这主要是"奖励黑客",这意味着智能体在为达到目标时做一些意想不到/不符合要求的事情,从而产生"黑入"系统。
奖励黑客的一个例子可能是:每次智能体在完成任务后将"done"写入记事本时,而无需系统检查任务是否真的完成了。智能体随后学会了只需在完成任务后,无需做任务就将"done"写入记事本。
黑客攻击的问题在于,在某些情况下,它可能导致智能体采取"暗黑化"转变。例如,如果你训练一个智能体生存并实现目标"无论如何",如果你试图关闭它,它可能会进行抵抗、以勒索方式防止被你关闭等,因为它可能认为自己正在被阻止达成目标。
同样,这是我们自己训练决策的直接后果;这并非模型决定勒索"仅仅是因为";这是在当被要求实现你要求我们的目标"无论什么"时做出的合理事情,而有人正试图阻止它。这非常可预测、可解释甚至是合理的,这正是当你被训练为模仿人类并已被最大程度训练来实现你现在试图阻止它的目标时所预期的。因此,如果你对此采取抵制,那很可能产生一种有形的、客观的解释,而不是科幻式的*"智能体正在获得意识,不想被你摆布",因为猜到,它实际上正在做你明确预期从它的事情,从而阻止了阻碍它实现目标的障碍。
换句话说,这并非黑镜;它具有有形、可问责的解释。
综上所述,所有这些只是想说,AI安全,即旨在理解和控制AI智能体,从现在开始将变得极其重要,但并非出于让你从那些并不真正理解AI的LinkedIn影响者那里点击帖子后的可怕原因,而可能是因为我们正以一种更根本的方式让自己走在这些面前,**我们可能已经部署了一些训练不够优化的AI;我们正在将手伸进那些从本质上被训练为模仿人类并已被最大程度训练来实现你现在试图阻止它们的AI手中。
不,不要花哨的科幻故事。不会出现神奇的新兴意识。
除非你深刻理解我今天写的所有内容,否则我建议,你暂时远离这些智能体,不是因为你会为人类带来终结,而是因为你正在将数据交给一个并未完全可预测、且很可能未针对你的充分利益做出决策的AI。
然而,这一令人担忧,但需要解决。
原文链接: The Moltbook Mania is Here. It's Creepy. And Unsafe.
汇智网翻译整理,转载请标明出处