最后一种手工设计的架构
Sam Altman,这家对 Transformer 投资最多的公司的首席执行官,告诉一屋子学生它不是最终形态。那么 Transformer 之后是什么?他可能是对的——某些东西终将取而代之,而且证据已不再是轶事性的。最近几篇论文已经证明 Transformer 最糟糕的特性是结构性的——不是可以用更好的数据或更多计算来修复的工程问题,而是数学下界。
Transformer 诞生于2017年的论文 "Attention Is All You Need",在五年内将我们从勉强连贯的 GPT-2 带到了 GPT-4。一段非凡的历程。但 Duman Keles 等人证明了 O(n²) 注意力复杂度不是一个实现细节。它是一个必要的下界,除非复杂性理论中的一个基础猜想被证明是错误的。上下文翻倍,成本翻四倍。一个70B模型在百万 token 上下文下的 KV 缓存大约消耗 320 GB GPU 内存。大多数硬件无法容纳。
问题比计算成本更深。Kalai 和 Vempala 证明了任何校准的语言模型必然以一定比率产生幻觉。2025年的一项后续研究更进一步:没有可计算的 LLM 能在无界查询上普遍正确。无法通过更好的训练数据修复。无法通过 RLHF 修复。这是这些模型生成文本方式的统计特性。
在推理方面:Dziri 等人表明 Transformer 将多步推理坍缩为模式匹配。随着任务复杂性增加,性能指数级下降。GPT-4 在3位数乘法上只得到 59%。Chowdhury 证明了"中间丢失"问题——模型对隐藏在上下文中间的信息表现差20-30%——是架构本身的几何特性。在初始化时就已经存在,在任何训练发生之前。
这些都是定理。运行每个前沿 AI 系统的架构有一个天花板,而这个天花板已被证明。
1、后 Transformer 技术栈已在生产中
Fichtl 等人的调查检查了每个主要基准上的前10名模型。零个是非 Transformer 的。Transformer 仍在排行榜上获胜。但该领域正在向混合架构发展。2025年发布的超过 60% 的前沿模型已经使用了混合专家。DeepSeek-V3 拥有671B总参数但每个 token 只激活37B。它训练了 278.8万 H800 GPU 小时,仅为同等密集模型所需的一小部分,并匹配了前沿闭源性能。到2025年底,DeepSeek-V3.2 据报道以90%更低的训练成本达到了 GPT-5 级别的性能。MoE 并没有取代 Transformer。它从根本上改变了经济学,可以说这是自原始架构以来最大的实际进步。
更有趣的部分是当你将注意力与状态空间模型混合时会发生什么。Gu 和 Dao(2024)证明了 SSM 和注意力在数学上是对偶的:同一计算的两种视图。这个理论结果已经出现在生产中。AI21 的 Jamba 以1:7的注意力与 Mamba 比例运行,获得 256K 上下文,吞吐量比 Mixtral 高 3倍。阿里巴巴的 Qwen3-Next 发布了第一个采用混合骨干的顶级模型:用于线性注意力的 Gated DeltaNet,与全注意力以3:1的比例混合。微软的 Phi-4-mini-flash-reasoning 有75%是 Mamba 层,吞吐量 10倍,延迟降低 2-3倍。
扩散语言模型是黑马。LLaDA,第一个8B参数的扩散 LLM,将文本生成视为去噪而非顺序 token 预测。它匹配了 Llama3-8B,并做到了没有任何自回归模型能做到的事情:它解决了"逆转诅咒",在逆转任务上超越了 GPT-4o。Gemini Diffusion 达到了 每秒1,479个 token。2025年出现了50多篇关于扩散 LLM 的论文。如果并行生成能在规模上可靠工作,推理经济学将彻底改变。
Alman 和 Yu 证明存在一些任务,每个次二次方替代方案都有根本性的理论差距。这是为什么混合架构——而非干净替代——才是下一个方向的最强数学论据。
2、搜索不再是人类速度
我觉得最有趣的部分是递归。AI 系统现在正在运行搜索其自身架构继任者的过程。
AlphaEvolve,一个基于 Gemini 2.0 构建的进化编码智能体,找到了一种用48次标量乘法完成4×4复数矩阵乘法的方法:这是对 Strassen 56年界限的首次改进。在 50多个开放数学问题上,它在75%的情况下匹配了已知最佳解决方案,在20%的情况下超越了它们。递归部分:AlphaEvolve 在 Gemini 自身架构内的一个核上找到了23%的加速,将 Gemini 的训练时间缩短了1%,恢复了 Google 总计算量的 0.7%。Gemini 让 Gemini 更快。
Karpathy 的 AutoResearch,2026年3月7日发布,是一个630行的 Python 脚本,让 AI 智能体修改训练代码、运行5分钟实验、检查结果并迭代。他将它指向自己高度调优的"Time to GPT-2"代码库。智能体找到了大约20个可迁移到更大模型的附加改进,将指标削减了 11%。Shopify CEO Tobi Lutke 一夜之间试了一下:37个实验,19%的验证改善,一个0.8B模型超越了1.6B模型。Sakana AI 的 AI Scientist v2 走得更远,产生了第一篇通过标准同行评审的 AI 撰写论文。OpenAI 在2025年底公开表示,它正在研究如何安全地构建能够递归自我改进的 AI 系统。两年前这还是一个思想实验。
3、硬件决定一切
Transformer 获胜不是因为注意力在理论上比循环更优雅。它获胜是因为它在 GPU 上并行化得很好。下一个取代它的东西必须通过同样的门槛。
密集 Transformer 的预训练扩展正在趋平。OpenAI 在 Orion 的每次主要训练运行上至少花费了5亿美元。该模型在训练完成20%时就达到了 GPT-4 的性能;剩余80%给了递减的回报。他们将其从 GPT-5 降级为 GPT-4.5。Sutskever 在 NeurIPS 2024 上说:"我们所知的预训练将会结束。数据不会增长,因为我们只有一个互联网。"他的初创公司 SSI 以约20名员工和零收入获得了320亿美元的估值。一个押注:下一个飞跃需要在架构上的全新突破。
但测试时计算开启了一个完全不同的维度。OpenAI 的 o3 在 ARC-AGI 上达到了 87.5%,超越了大多数人类。DeepSeek-R1 以 70% 更低的成本匹配了 o1 级别的推理。OpenAI 2024年的推理支出达到23亿美元:训练 GPT-4.5 花费的 15倍。Dario Amodei 在2026年3月的摩根士丹利会议上说:"我们没有看到撞墙。我们没看到墙。"他说的是这个维度——推理时计算和来自可验证奖励的 RL——而不是预训练更大的密集模型。Densing Law 现在显示,通过更好的数据、MoE 和蒸馏,每个参数的能力每 3.5个月翻一番。去年的前沿,用一小部分参数就能匹配。
推理需求预计将 超过训练需求118倍。全球数据中心电力正在朝着 2030年945 TWh 的方向发展,大约相当于日本的总用电量。一个在基准上好2倍但推理时差3倍的架构不会获胜。能出货的是适合硬件的东西。Transformer 不会消失。它正在成为更大堆栈中的一个组件:注意力用于回忆,SSM 用于廉价序列处理,MoE 用于容量,可能还有扩散用于并行输出。Jamba、Hymba 和 Qwen3-Next 已经以这种方式出货。这不是预测。这是已经在生产中的现实。
堆栈演进的速度是开放问题。考虑到 AlphaEvolve、AutoResearch 和 AI Scientist v2,答案是比任何之前的架构转型都快。我不知道 Transformer 是否还会作为主导层保留两年还是五年。但我相当确定,无论接下来是什么,人类不会独自设计它。
原文链接: The Last Architecture Designed by Hand
汇智网翻译整理,转载请标明出处