OpenMythos：Mythos开源复现

Anthropic 从未发布过关于 Claude Mythos 的技术论文。但这并没有阻止研究社区进行理论推演。一个名为 OpenMythos 的新开源项目，由 Kye Gomez 在 GitHub 上发布，尝试了一项雄心勃勃的工作：基于第一性原理对 Claude Mythos 架构进行理论复现，完全使用 PyTorch 构建，并以同行评审研究为基础。

该项目不是泄露的模型、微调或蒸馏。它是用代码呈现的假设——而且这个假设足够具体以至于可以被证伪，这正是它有趣的地方。

1、核心：Mythos是循环深度 Transformer

OpenMythos 提出 Claude Mythos 属于一类称为 循环深度 Transformer（RDT）的架构，在文献中也称为循环 Transformer。这个概念与标准 Transformer 堆栈有本质区别。

在传统 Transformer 中——GPT、LLaMA、Mistral——模型通过一系列唯一层依次传递输入，每层都有自己独立的权重。更强的能力通常意味着更多的层和更多的参数。在循环深度 Transformer 中，一组固定权重在单次前向传播中迭代应用 T 个循环步骤。相同的权重运行多次。推理深度不是存储参数数量的函数，而是推理时运行多少次迭代的函数。

把它想成不是在读书，而是在修改草稿：模型一次又一次地回到同一个计算块，每次通过都改善其内部表示。

2、架构结构

OpenMythos 将其实例化为三部分结构：**前奏 → 循环块 → 尾声**。前奏和尾声是标准 Transformer 层，各运行一次。循环块是计算核心，循环最多 T=16 次。

在每个循环步骤 t，隐藏状态使用以下规则更新：

ht+1 = A·ht + B·e + Transformer(ht, e)

这里 ht 是循环迭代 t 后的隐藏状态，e 是来自前奏的编码输入——在每一步重新注入。重新注入是有意的：没有它，隐藏状态会在深层循环中偏离原始输入信号。学习矩阵 A 和 B 控制前一个隐藏状态和编码输入在每步中前向传递多少。

循环块内的 FFN 不是标准的前馈层。OpenMythos 用一个遵循 DeepSeekMoE 设计的混合专家（MoE）层替代了它：一个大型细粒度路由专家池，每个 token 只激活稀疏的 top-K 子集，外加一组始终活跃的共享专家来吸收跨域的通用模式。关键是，路由器在每个循环深度选择不同的专家子集，意味着每次迭代尽管共享相同的基础权重，但在计算上是不同的。MoE 提供领域广度；循环提供推理深度。

注意力默认使用来自 DeepSeek-V2 的多潜在注意力，它缓存压缩的低秩 KV 潜变量而非完整的键/值张量，在生产规模下产生10-20倍的 KV 内存减少。

3、在连续潜在空间中推理

该架构最重要的属性之一是推理完全发生在连续潜在空间中。循环步骤之间没有中间 token 发射——模型不会在思考中间产生文本然后重新阅读。这与思维链提示在结构上截然不同，在后者中推理被外化为 token 序列。这一点已在 Saunshi 等人（2025）和 COCONUT（2024）中被正式分析。

Saunshi 等人（2025）正式表明，RDT 中的每次循环迭代在功能上等价于思维链的一个步骤，但操作的是实值向量而非离散 token。连续潜在思想还可以同时编码多个备选下一步，在单次前向传播中实现更接近推理空间广度优先搜索的能力。

这也解释了一个具体的能力优势。在5跳推理链上训练的标准 Transformer 在推理时测试10跳链时会失败——它没有机制将深度扩展到训练时看到的范围之外。循环深度 Transformer 自然地处理这一点：运行更多推理时循环可以扩展推理链而无需任何重新训练。更难的问题获得更多计算；更简单的问题提前退出。

4、解决稳定性问题

训练循环模型历史上一直不稳定。隐藏状态 ht 在迭代中可能无限制增长——一种被称为残差爆炸的失败模式。OpenMythos 使用从 Parcae 架构（Prairie 等人，2026）借用的 线性时不变（LTI）注入约束来解决这个问题：A 的谱半径，记为 ρ(A)，通过构造被强制小于1，保证无论学习率或梯度噪声如何都具有稳定性。

另一个极端还存在第二种失败模式：超过一定循环深度后，过度循环会降低预测质量——隐藏状态越过解决方案漂移到噪声中。这就是"过度思考"问题。**自适应计算时间（ACT）**停止通过每个位置的学习标量来解决它，动态决定何时停止循环。更难处理的位置获得更多计算；已经收敛的 token 提前停止。

最后，深度方向 LoRA 适配器在每次迭代深度引入一个小的秩-r 适配矩阵，使每个循环步骤具有略微不同的行为而不增加大量参数——弥合了纯权重共享和完全不同层之间的差距。

5、为什么参数效率很重要

Parcae 论文（Prairie 等人，2026）为效率主张提供了实验基础。在770M参数下，RDT 匹配了在相同数据上训练的1.3B标准 Transformer——大约一半的参数达到等效的下游质量。最优循环和最优 token 数都遵循跨尺度一致的幂律，建立了循环训练的首个可预测扩展定律。

这具有重要意义：推理深度随推理时计算扩展，而非存储参数数量。这重新定义了扩展辩论中的主导假设之一。相关轴可能不是训练时的参数数量，而是推理时的循环深度。

6、OpenMythos 的贡献

OpenMythos 提供四个具体的研究成果：一个完全可配置的 RDT 假设的 PyTorch 实现，包含 MoE FFN 和多潜在注意力；LTI 稳定的循环注入作为一等训练原语集成；深度方向 LoRA 适配器实现每次迭代的行为差异化；以及一个可复现的研究基线，用于研究循环 Transformer 动态和推理时推理深度。

无论 Mythos 是否真的是 RDT，OpenMythos 都为研究社区提供了具体可运行的东西——一类文献日益表明被低估的架构的实现，它可能代表了通往有能力 AI 的一条与简单训练更大模型根本不同的路径。

原文链接: Meet OpenMythos: An Open-Source PyTorch Reconstruction of Claude Mythos Where 770M Parameters Match a 1.3B Transformer

汇智网翻译整理，转载请标明出处