OpenMythos:Mythos开源复现
Anthropic 从未发布过关于 Claude Mythos 的技术论文。但这并没有阻止研究社区进行理论推演。一个名为 OpenMythos 的新开源项目,由 Kye Gomez 在 GitHub 上发布,尝试了一项雄心勃勃的工作:基于第一性原理对 Claude Mythos 架构进行理论复现,完全使用 PyTorch 构建,并以同行评审研究为基础。
该项目不是泄露的模型、微调或蒸馏。它是用代码呈现的假设——而且这个假设足够具体以至于可以被证伪,这正是它有趣的地方。
1、核心:Mythos是循环深度 Transformer
OpenMythos 提出 Claude Mythos 属于一类称为 循环深度 Transformer(RDT)的架构,在文献中也称为循环 Transformer。这个概念与标准 Transformer 堆栈有本质区别。
在传统 Transformer 中——GPT、LLaMA、Mistral——模型通过一系列唯一层依次传递输入,每层都有自己独立的权重。更强的能力通常意味着更多的层和更多的参数。在循环深度 Transformer 中,一组固定权重在单次前向传播中迭代应用 T 个循环步骤。相同的权重运行多次。推理深度不是存储参数数量的函数,而是推理时运行多少次迭代的函数。
把它想成不是在读书,而是在修改草稿:模型一次又一次地回到同一个计算块,每次通过都改善其内部表示。
2、架构结构
OpenMythos 将其实例化为三部分结构:**前奏 → 循环块 → 尾声**。前奏和尾声是标准 Transformer 层,各运行一次。循环块是计算核心,循环最多 T=16 次。
在每个循环步骤 t,隐藏状态使用以下规则更新:
ht+1 = A·ht + B·e + Transformer(ht, e)
这里 ht 是循环迭代 t 后的隐藏状态,e 是来自前奏的编码输入——在每一步重新注入。重新注入是有意的:没有它,隐藏状态会在深层循环中偏离原始输入信号。学习矩阵 A 和 B 控制前一个隐藏状态和编码输入在每步中前向传递多少。
循环块内的 FFN 不是标准的前馈层。OpenMythos 用一个遵循 DeepSeekMoE 设计的混合专家(MoE)层替代了它:一个大型细粒度路由专家池,每个 token 只激活稀疏的 top-K 子集,外加一组始终活跃的共享专家来吸收跨域的通用模式。关键是,路由器在每个循环深度选择不同的专家子集,意味着每次迭代尽管共享相同的基础权重,但在计算上是不同的。MoE 提供领域广度;循环提供推理深度。
注意力默认使用来自 DeepSeek-V2 的多潜在注意力,它缓存压缩的低秩 KV 潜变量而非完整的键/值张量,在生产规模下产生10-20倍的 KV 内存减少。
3、在连续潜在空间中推理
该架构最重要的属性之一是推理完全发生在连续潜在空间中。循环步骤之间没有中间 token 发射——模型不会在思考中间产生文本然后重新阅读。这与思维链提示在结构上截然不同,在后者中推理被外化为 token 序列。这一点已在 Saunshi 等人(2025)和 COCONUT(2024)中被正式分析。
Saunshi 等人(2025)正式表明,RDT 中的每次循环迭代在功能上等价于思维链的一个步骤,但操作的是实值向量而非离散 token。连续潜在思想还可以同时编码多个备选下一步,在单次前向传播中实现更接近推理空间广度优先搜索的能力。
这也解释了一个具体的能力优势。在5跳推理链上训练的标准 Transformer 在推理时测试10跳链时会失败——它没有机制将深度扩展到训练时看到的范围之外。循环深度 Transformer 自然地处理这一点:运行更多推理时循环可以扩展推理链而无需任何重新训练。更难的问题获得更多计算;更简单的问题提前退出。
4、解决稳定性问题
训练循环模型历史上一直不稳定。隐藏状态 ht 在迭代中可能无限制增长——一种被称为残差爆炸的失败模式。OpenMythos 使用从 Parcae 架构(Prairie 等人,2026)借用的 线性时不变(LTI)注入约束来解决这个问题:A 的谱半径,记为 ρ(A),通过构造被强制小于1,保证无论学习率或梯度噪声如何都具有稳定性。
另一个极端还存在第二种失败模式:超过一定循环深度后,过度循环会降低预测质量——隐藏状态越过解决方案漂移到噪声中。这就是"过度思考"问题。**自适应计算时间(ACT)**停止通过每个位置的学习标量来解决它,动态决定何时停止循环。更难处理的位置获得更多计算;已经收敛的 token 提前停止。
最后,深度方向 LoRA 适配器在每次迭代深度引入一个小的秩-r 适配矩阵,使每个循环步骤具有略微不同的行为而不增加大量参数——弥合了纯权重共享和完全不同层之间的差距。
5、为什么参数效率很重要
Parcae 论文(Prairie 等人,2026)为效率主张提供了实验基础。在770M参数下,RDT 匹配了在相同数据上训练的1.3B标准 Transformer——大约一半的参数达到等效的下游质量。最优循环和最优 token 数都遵循跨尺度一致的幂律,建立了循环训练的首个可预测扩展定律。
这具有重要意义:推理深度随推理时计算扩展,而非存储参数数量。这重新定义了扩展辩论中的主导假设之一。相关轴可能不是训练时的参数数量,而是推理时的循环深度。
6、OpenMythos 的贡献
OpenMythos 提供四个具体的研究成果:一个完全可配置的 RDT 假设的 PyTorch 实现,包含 MoE FFN 和多潜在注意力;LTI 稳定的循环注入作为一等训练原语集成;深度方向 LoRA 适配器实现每次迭代的行为差异化;以及一个可复现的研究基线,用于研究循环 Transformer 动态和推理时推理深度。
无论 Mythos 是否真的是 RDT,OpenMythos 都为研究社区提供了具体可运行的东西——一类文献日益表明被低估的架构的实现,它可能代表了通往有能力 AI 的一条与简单训练更大模型根本不同的路径。
汇智网翻译整理,转载请标明出处