最后一种手工设计的架构

Sam Altman，这家对 Transformer 投资最多的公司的首席执行官，告诉一屋子学生它不是最终形态。那么 Transformer 之后是什么？他可能是对的——某些东西终将取而代之，而且证据已不再是轶事性的。最近几篇论文已经证明 Transformer 最糟糕的特性是结构性的——不是可以用更好的数据或更多计算来修复的工程问题，而是数学下界。

Transformer 诞生于2017年的论文 "Attention Is All You Need"，在五年内将我们从勉强连贯的 GPT-2 带到了 GPT-4。一段非凡的历程。但 Duman Keles 等人证明了 O(n²) 注意力复杂度不是一个实现细节。它是一个必要的下界，除非复杂性理论中的一个基础猜想被证明是错误的。上下文翻倍，成本翻四倍。一个70B模型在百万 token 上下文下的 KV 缓存大约消耗 320 GB GPU 内存。大多数硬件无法容纳。

问题比计算成本更深。Kalai 和 Vempala 证明了任何校准的语言模型必然以一定比率产生幻觉。2025年的一项后续研究更进一步：没有可计算的 LLM 能在无界查询上普遍正确。无法通过更好的训练数据修复。无法通过 RLHF 修复。这是这些模型生成文本方式的统计特性。

在推理方面：Dziri 等人表明 Transformer 将多步推理坍缩为模式匹配。随着任务复杂性增加，性能指数级下降。GPT-4 在3位数乘法上只得到 59%。Chowdhury 证明了"中间丢失"问题——模型对隐藏在上下文中间的信息表现差20-30%——是架构本身的几何特性。在初始化时就已经存在，在任何训练发生之前。

这些都是定理。运行每个前沿 AI 系统的架构有一个天花板，而这个天花板已被证明。

1、后 Transformer 技术栈已在生产中

Fichtl 等人的调查检查了每个主要基准上的前10名模型。零个是非 Transformer 的。Transformer 仍在排行榜上获胜。但该领域正在向混合架构发展。2025年发布的超过 60% 的前沿模型已经使用了混合专家。DeepSeek-V3 拥有671B总参数但每个 token 只激活37B。它训练了 278.8万 H800 GPU 小时，仅为同等密集模型所需的一小部分，并匹配了前沿闭源性能。到2025年底，DeepSeek-V3.2 据报道以90%更低的训练成本达到了 GPT-5 级别的性能。MoE 并没有取代 Transformer。它从根本上改变了经济学，可以说这是自原始架构以来最大的实际进步。

更有趣的部分是当你将注意力与状态空间模型混合时会发生什么。Gu 和 Dao（2024）证明了 SSM 和注意力在数学上是对偶的：同一计算的两种视图。这个理论结果已经出现在生产中。AI21 的 Jamba 以1:7的注意力与 Mamba 比例运行，获得 256K 上下文，吞吐量比 Mixtral 高 3倍。阿里巴巴的 Qwen3-Next 发布了第一个采用混合骨干的顶级模型：用于线性注意力的 Gated DeltaNet，与全注意力以3:1的比例混合。微软的 Phi-4-mini-flash-reasoning 有75%是 Mamba 层，吞吐量 10倍，延迟降低 2-3倍。

扩散语言模型是黑马。LLaDA，第一个8B参数的扩散 LLM，将文本生成视为去噪而非顺序 token 预测。它匹配了 Llama3-8B，并做到了没有任何自回归模型能做到的事情：它解决了"逆转诅咒"，在逆转任务上超越了 GPT-4o。Gemini Diffusion 达到了 每秒1,479个 token。2025年出现了50多篇关于扩散 LLM 的论文。如果并行生成能在规模上可靠工作，推理经济学将彻底改变。

Alman 和 Yu 证明存在一些任务，每个次二次方替代方案都有根本性的理论差距。这是为什么混合架构——而非干净替代——才是下一个方向的最强数学论据。

2、搜索不再是人类速度

我觉得最有趣的部分是递归。AI 系统现在正在运行搜索其自身架构继任者的过程。

AlphaEvolve，一个基于 Gemini 2.0 构建的进化编码智能体，找到了一种用48次标量乘法完成4×4复数矩阵乘法的方法：这是对 Strassen 56年界限的首次改进。在 50多个开放数学问题上，它在75%的情况下匹配了已知最佳解决方案，在20%的情况下超越了它们。递归部分：AlphaEvolve 在 Gemini 自身架构内的一个核上找到了23%的加速，将 Gemini 的训练时间缩短了1%，恢复了 Google 总计算量的 0.7%。Gemini 让 Gemini 更快。

Karpathy 的 AutoResearch，2026年3月7日发布，是一个630行的 Python 脚本，让 AI 智能体修改训练代码、运行5分钟实验、检查结果并迭代。他将它指向自己高度调优的"Time to GPT-2"代码库。智能体找到了大约20个可迁移到更大模型的附加改进，将指标削减了 11%。Shopify CEO Tobi Lutke 一夜之间试了一下：37个实验，19%的验证改善，一个0.8B模型超越了1.6B模型。Sakana AI 的 AI Scientist v2 走得更远，产生了第一篇通过标准同行评审的 AI 撰写论文。OpenAI 在2025年底公开表示，它正在研究如何安全地构建能够递归自我改进的 AI 系统。两年前这还是一个思想实验。

3、硬件决定一切

Transformer 获胜不是因为注意力在理论上比循环更优雅。它获胜是因为它在 GPU 上并行化得很好。下一个取代它的东西必须通过同样的门槛。

密集 Transformer 的预训练扩展正在趋平。OpenAI 在 Orion 的每次主要训练运行上至少花费了5亿美元。该模型在训练完成20%时就达到了 GPT-4 的性能；剩余80%给了递减的回报。他们将其从 GPT-5 降级为 GPT-4.5。Sutskever 在 NeurIPS 2024 上说："我们所知的预训练将会结束。数据不会增长，因为我们只有一个互联网。"他的初创公司 SSI 以约20名员工和零收入获得了320亿美元的估值。一个押注：下一个飞跃需要在架构上的全新突破。

但测试时计算开启了一个完全不同的维度。OpenAI 的 o3 在 ARC-AGI 上达到了 87.5%，超越了大多数人类。DeepSeek-R1 以 70% 更低的成本匹配了 o1 级别的推理。OpenAI 2024年的推理支出达到23亿美元：训练 GPT-4.5 花费的 15倍。Dario Amodei 在2026年3月的摩根士丹利会议上说："我们没有看到撞墙。我们没看到墙。"他说的是这个维度——推理时计算和来自可验证奖励的 RL——而不是预训练更大的密集模型。Densing Law 现在显示，通过更好的数据、MoE 和蒸馏，每个参数的能力每 3.5个月翻一番。去年的前沿，用一小部分参数就能匹配。

推理需求预计将超过训练需求118倍。全球数据中心电力正在朝着 2030年945 TWh 的方向发展，大约相当于日本的总用电量。一个在基准上好2倍但推理时差3倍的架构不会获胜。能出货的是适合硬件的东西。Transformer 不会消失。它正在成为更大堆栈中的一个组件：注意力用于回忆，SSM 用于廉价序列处理，MoE 用于容量，可能还有扩散用于并行输出。Jamba、Hymba 和 Qwen3-Next 已经以这种方式出货。这不是预测。这是已经在生产中的现实。

堆栈演进的速度是开放问题。考虑到 AlphaEvolve、AutoResearch 和 AI Scientist v2，答案是比任何之前的架构转型都快。我不知道 Transformer 是否还会作为主导层保留两年还是五年。但我相当确定，无论接下来是什么，人类不会独自设计它。

原文链接: The Last Architecture Designed by Hand

汇智网翻译整理，转载请标明出处