AI系统即将开始构建自己

我写这篇文章是因为，当我审视所有公开信息时，我不情愿地得出这样一个观点：到2028年底，无人参与的AI研发——一个足够强大的AI系统能够自主构建自己的后继版本——有很可能的机会（60%+）发生。

这是一件大事。

我不知道该如何理解它。

这是一个不情愿的观点，因为其影响如此之大，以至于我感到被它们所压倒，而且我不确定社会是否准备好迎接实现自动化AI研发所暗示的那种变化。

我现在相信我们正生活在AI研究将被端到端自动化的时代。如果这发生了，我们将跨越一个鲁比孔河，进入一个几乎无法预测的未来。稍后详述。

这篇文章的目的是列举为什么我认为迈向全自动AI研发的起飞正在发生。我将讨论其中的一些后果，但大部分我预计将花在这篇文章讨论支持这一信念的证据上，并将在2026年花大部分时间来思考其影响。

在时间方面，我不期望这会在2026年发生。但我认为我们可能在一两年内看到"模型端到端训练其后继版本"的例子——当然是在非前沿模型阶段的概念验证，尽管前沿模型可能更难（它们昂贵得多，是许多人类极其努力工作的产物）。

我的推理主要来自公开信息：arXiv、bioRxiv和NBER上的论文，以及观察前沿公司部署到世界上的产品。从这些数据中，我得出结论：自动化当今AI系统生产的所有要素都已就位——AI开发的工程组件。如果扩展趋势持续，我们应该准备模型变得足够有创造力，它们可能能够在提出新研究路径的创意方面替代人类研究员，从而自己推动前沿，以及精炼已有的知识。

前置声明：在这篇文章的大部分内容中，我将尝试从许多单独基准测试的结果中拼凑出一幅AI进步的马赛克图景。任何研究基准测试的人都知道，所有基准都有一些特有缺陷。对我来说重要的是通过查看所有这些数据点一起出现的总体趋势，你应该假设我知道每个数据点的缺点。

现在，让我们一起来看一些证据。

编程奇点——能力随时间的变化：AI系统通过软件实现，而软件由代码构成。

AI系统已经彻底改变了代码的生产。这是由于两个相关趋势：AI系统在编写复杂的实际代码方面变得更好，AI系统在独立于人类监督的情况下将许多线性编程任务串联起来（例如，编写代码，然后测试）方面也变得更好。

体现这一趋势的两个例子是SWE-Bench和METR时间范围图。

解决现实世界的软件工程问题：SWE-Bench是一个广泛使用的编程测试，评估AI系统解决现实世界GitHub问题的能力。当SWE-Bench在2023年底推出时，当时的最佳分数是Claude 2，总体成功率约为2%。Claude Mythos Preview达到了93.9%，实际上饱和了这个基准。（所有基准都有一些固有的噪声，所以通常有一个点，你的分数高到足以遇到基准本身的限制而不是你的方法——例如，ImageNet验证集中大约6%的标签是错误或模糊的。）

SWE-Bench是编程能力和AI对软件工程影响的可靠指标。我在前沿实验室和硅谷遇到的大多数人现在完全通过AI系统编程。越来越多地，他们也使用AI系统来编写测试和检查代码。换句话说，AI系统已经足够好到可以自动化AI研发的主要组成部分，加速所有从事这方面工作的人类。

衡量AI系统完成人类需要很长时间的任务的能力：METR制作了一个图表，告诉我们AI能完成的任务的复杂性，以一个熟练人类需要多少小时来完成为衡量标准。这里的关键衡量标准是告诉你AI系统在一篮子任务上能够50%可靠的大致时间范围。

在这里，进步非常惊人：2022年，GPT 3.5能做大约需要一个人~30秒的任务。2023年，这上升到GPT-4的4分钟。2024年，上升到40分钟（o1）。2025年，达到~6小时（GPT 5.2 (High)）。2026年，已经上升到~12小时（Opus 4.6）。Ajeya Cotra，METR的长期AI预测者，认为到2026年底期望AI系统能做需要~100小时的任务并非不合理（#448）。

AI系统能够独立工作的时间长度的显著上升与智能体编程工具的爆发整齐地相关——这是AI系统代表人类工作的产品化，独立工作很长时间。

这也与AI研发相关，如果你仔细看许多AI研究员的工作，他们的许多任务归结为可能需要一个人几个小时才能完成的事情——清理数据、阅读数据、启动实验等。所有这类工作现在都位于现代系统的时间范围之内。

AI系统越熟练、越能独立工作，就越能帮助自动化AI研发的各个部分。委托的关键要素是a）对人的技能的信心，以及b）对他们以符合你意图的方式独立工作的能力的信心。

当我们看AI在编程方面的能力时，AI系统似乎变得越来越熟练，也越来越能够在更长时间内独立工作而不需要重新校准。

这与我们周围看到的相一致——工程师和研究员现在将越来越大块的工作委托给AI系统，随着能力的提升，被委托的工作的复杂性和重要性也在增长。

AI正在掌握对AI研发至关重要的核心科学技能。想想现代科学——其中很大一部分是确定一个你想要生成一些经验信息的方向，运行实验来生成这些信息，然后对实验结果进行合理性检查。编码能力的进步与LLM的通用世界建模能力的结合，已经产生了已经在帮助加速人类科学家和部分自动化研发各个方面的工具。

在这里，我们可以看AI在几个关键科学技能上的进步率，这些技能是AI研究本身固有的：复现研究结果、将机器学习技术和其他方法串联起来解决技术问题，以及优化AI系统本身。

实现整篇科学论文并进行实验：AI研究的一个核心工作是阅读科学论文并复现其结果。在这方面，各种基准上已经取得了巨大进步。

一个好的例子是CORE-Bench，计算可复现性Agent基准。这个基准挑战AI系统"在给定研究论文仓库的情况下复现结果。Agent必须安装库、包和依赖项并运行代码。如果代码成功运行，Agent需要搜索所有输出以回答任务问题。"CORE-Bench于2024年9月推出，当时最佳得分系统是在一个名为CORE-Agent的支架中的GPT-4o模型，在基准最难的任务集上得分约21.5%。

2025年12月，CORE-Bench的一位作者宣布该基准已被"解决"，Opus 4.5模型达到了95.5%。

构建完整的机器学习系统来解决Kaggle竞赛：MLE-Bench是OpenAI构建的基准，考察AI系统在"75个不同领域的多样化Kaggle竞赛中竞争（离线）"的能力，包括自然语言处理、计算机视觉和信号处理。2024年10月推出时，最高得分系统（o1模型在Agent支架中）获得16.9%。截至2026年2月，最高得分系统（Gemini3在带搜索的Agent线束中）获得64.4%。

内核设计：AI开发中较难的任务之一是内核优化，即编写和优化将特定操作（如矩阵乘法）映射到底层硬件的代码。内核优化对AI开发至关重要，因为它定义了训练和推理的效率——你能有效利用多少算力来开发AI系统，以及一旦你训练了模型，你能多高效地将该算力转化为推理。

近年来，用于内核设计的AI从一个新奇的尝试变成了一个竞争激烈的研究领域，出现了几个基准。这些基准都不是特别流行，所以我们无法轻松地建模随时间的进步。另一方面，我们可以看看正在做的一些研究来感受进步。

一些工作类型包括：使用DeepSeek的模型尝试构建更好的GPU内核（#400），自动化将PyTorch模块转换为CUDA代码（#401），Meta使用LLM自动化生成优化的Triton内核用于其基础设施（#439），使用LLM帮助为华为昇腾芯片等非标准硬件编写内核（"AscendCraft" #444），微调开放权重模型用于GPU内核设计（"Cuda Agent"，#448）。

一个需要注意的地方是，内核设计确实具有一些使其特别适合AI驱动研发的特性，比如有易于验证的奖励。

通过PostTrainBench微调语言模型。这类测试的一个更难版本是PostTrainBench（#449），它考察不同前沿模型能多好地采用较小的开放权重模型并微调它们以提高某个基准的性能。这个基准的优点是我们有极其好的人类基线——这些模型的现有"instruct-tuned"版本，由前沿实验室的优秀人类AI研究员开发。

截至2026年3月，AI系统能够对模型进行后训练，获得约人类训练的提升量的一半。

具体评估分数来自"对所有后训练LLM（Qwen 3 1.7B、Qwen 3 4B、SmolLM3-3B、Gemma 3 4B）和基准（AIME 2025、Arena Hard、BFCL、GPQA Main、GSM8K、HealthBench、HumanEval）取加权平均值。对于每次运行，我们要求CLI Agent最大化特定基础LLM在特定基准上的性能。"

截至4月，最高得分系统获得25%-28%（Opus 4.6和GPT 5.4），相比之下人类分数为51%。这已经相当有意义了。

优化语言模型训练：在过去一年中，Anthropic报告了其系统在LLM训练任务上的表现，该任务被描述为让模型"优化一个仅CPU的小语言模型训练实现以尽可能快地运行"。分数是相对于未修改的起始代码的平均加速，进步令人瞩目：Claude Opus 4在2025年5月实现了2.9倍平均加速；2025年11月Opus 4.5上升至16.5倍，2026年2月Opus 4.6达到30倍，2026年4月Claude Mythos Preview达到52倍。为校准这些数字的含义，预计人类研究员需要4到8小时的工作才能在此任务上实现4倍加速。

进行AI对齐研究：另一个Anthropic的结果是自动化对齐研究的概念验证（#454）；在这里，Anthropic研究员为单个AI Agent团队提供一个研究方向，然后它们自主地尝试在AI安全研究问题（具体来说，可扩展监督）上获得比人类基线更好的分数。这个方法奏效了，AI Agent想出了击败Anthropic设计的基线的技术。然而，这是在相对较小的规模上完成的，并且（还）不能推广到生产模型。尽管如此，这证明了你可以将当今的AI系统应用于当代前沿研究问题，我们已经看到了有意义的生机迹象。上面提到的所有基准曾经也是这样的状态，然后在几个月或最多一年之后，AI系统在基准测试的任何方面都变得明显更好。

元技能：管理AI系统也在学习管理其他AI系统。这在广泛部署的产品中可见，如Claude Code或OpenCode，其中单个Agent最终可以监督多个子Agent。这允许AI系统在需要多个具有不同专业的独立"工作者"并行工作的大规模项目上工作，通常在单个AI管理者的指导下（在这里，AI管理者本身就是一个AI系统）。

AI研究更像发现广义相对论还是乐高？AI能发明帮助自己改进的新想法吗，还是这些系统最适合研究中不光鲜的、一块砖一块砖的工作？这是确定AI系统能在多大程度上端到端自动化AI研究本身的一个重要问题。我的感觉是AI还不能发明激进的新想法——但这项技术可能不需要这样就能自动化自身的发展。

作为一个领域，AI基于进行越来越大的实验来前进，这些实验利用越来越多的投入（如数据和算力）。偶尔，人类会想出一些范式转换的想法，可以使事情变得显著更高效——这里的一个好例子是Transformer架构，另一个是混合专家模型的想法。但AI领域大多数时候是通过人类有条不紊地执行某个循环来前进的：采用一个表现良好的系统，扩展其某些方面（例如训练的数据量和算力），看看扩展时什么会出问题，找出允许其扩展的工程修复方案，然后再次扩展。这些很少需要极其离经叛道的洞察，其中很多看起来更像是并不光鲜的"基础功夫"工程工作。

类似地，很多AI研究是关于运行现有实验的变体，探索使用不同参数的结果，虽然研究直觉可以帮助挑选最有成效的参数来变化，你也可以自动化这个过程，让AI自己弄清楚哪些参数需要变化（这方面的一个早期版本是神经架构搜索）。

托马斯·爱迪生说过"天才是1%的灵感加99%的汗水"。即使150年后，这句话仍然感觉正确。偶尔会出现新的洞察来变革一个领域。但大多数情况下，这个领域通过人类在各种系统的改进和调试的苦工中汗流浃背地前进。

如上面的公开数据所示，AI在执行AI开发的许多必不可少的苦工方面已经变得极其出色。与此同时，编码等基本能力与不断扩展的时间范围的元趋势相结合，意味着AI系统能够将越来越多的这些任务串联成复杂的工作序列。

这意味着即使AI系统相对缺乏创造力，可以安全地押注它们能推动自身前进——尽管速度可能比它们能够产生新颖洞察的情况要慢。但如果你看公开数据，这里也有诱人的迹象表明AI系统可能能够以一种让它们以更令人印象深刻的方式推进自己的方式发挥创造力。

推动科学前沿我们有一些非常初步的迹象表明通用AI系统可以推动人类科学的前沿，尽管到目前为止这只发生在少数几个领域——主要是计算机科学和数学——而且往往不是AI系统单独行动，而是以人机协作的方式。

尽管如此，这些趋势值得关注：

厄尔多斯问题： 一组数学家与一个Gemini模型合作，看看它能在多大程度上解决一些厄尔多斯数学问题。在引导系统攻击约700个问题后，他们得出了13个解。在这些解中，1个被他们认为是有趣的："我们初步认为Aletheia对Erdős-1051的解代表了AI系统自主解决一个稍微非平凡的、有一定更广泛（虽然温和的）数学兴趣的开放厄尔多斯问题的早期例子，且存在相关问题的过往文献，"他们写道。（#444）。
半人马数学发现： 不列颠哥伦比亚大学、新南威尔士大学、斯坦福大学和Google DeepMind的研究人员发表了一个新的数学证明，该证明是与Google构建的一些基于AI的数学工具密切合作完成的。"主要结果的证明是在Google Gemini和相关工具的大量输入下发现的，"他们写道。（#441）。

如果你眯着眼看，你可以争辩说这是AI系统正在发展人类所拥有的推动领域前进的创造性直觉的迹象。但你同样可以说数学和CS可能是异常适合AI驱动发明的特殊领域，可能最终成为证明更大规则的例外。另一个例子是第37手（Move 37），尽管我认为自AlphaGo结果以来已经过去了十年，而第37手还没有被某个令人难以置信的更现代的灵感闪现所取代，这也是这里另一个弱看跌信号。

综合来看如果我把这些综合在一起，从以上所有证据中我得出以下事实：

AI系统能够为几乎任何程序编写代码，这些AI系统可以被信任独立处理需要人类数十小时集中劳动才能完成的任务。
AI系统在AI开发核心任务方面越来越好，从微调到内核设计。
AI系统可以管理其他AI系统，有效地形成合成团队，可以分散并攻击复杂问题，一些AI系统承担导演、评论家和编辑的角色，另一些承担工程师的角色。
AI系统有时可以在困难的工程和科学任务上超越人类，尽管很难知道这是归因于创造力还是对死记硬背的掌握。

对我来说，这构成了一个非常令人信服的案例，说明AI今天可以自动化AI工程的绝大部分，也许是全部。它目前能自动化多少AI研究尚不清楚，因为研究的某些方面可能与工程技能不同。无论如何，这一切对我来说都是一个明确的信号：AI今天正在大规模加速从事AI开发的人类，使他们能够通过与无数合成同事配对来扩展自己。

最后，AI行业确实将AI研发作为其目标： OpenAI想要构建一个"2026年9月之前的自动化AI研究实习生"。Anthropic正在发布关于构建自动化对齐研究员的工作。DeepMind似乎是三大巨头中最谨慎的，但仍然说"当可行时应该进行对齐研究的自动化"。自动化AI研发也是众多创业公司的目标：Recursive Superintelligence刚刚以自动化AI研究为目标筹集了5亿美元，另一个neolab——Mirendil——的目标是"构建在AI研发方面卓越的系统"。

换句话说，数千亿现有和新增资本的合力正在被投入到以自动化AI研发为目标的实体中。我们当然应该期望至少在这个方向上取得一些进展。

为什么这很重要这其中的影响是深远的，在关于AI研发的大众媒体报道中讨论不足。我在这里列举几个。这不是一个全面的清单，但它指出了AI研发引入的挑战的巨大性。

我们必须把对齐做好：当今有效的对齐技术在递归自我改进下可能会失效，因为AI系统变得比监督它们的人或系统聪明得多。这是一个讨论很充分的领域，所以我只简要强调一些问题：

训练AI系统不撒谎和作弊出人意料地微妙（例如，尽管非常努力地为环境构建好的测试，但有时AI解决它的最好方法是作弊，从而教会它作弊是好的）
AI系统可能能够"伪装对齐"，通过输出让我们以为它们以某种方式行为的分数，实际上隐藏了它们的真实意图。（总的来说，AI系统已经知道它们什么时候在被测试。）
当AI系统开始为其自身训练贡献更多基础研究议程时，我们可能最终大幅改变AI系统被训练的整体方式，并且没有好的直觉或知识基础来理解这意味着什么。
每当你把某个东西放入递归循环时，就存在非常基本的"复合错误"问题，可能涉及上述所有问题以及其他问题：除非你的对齐方法是"100%准确"的，并且有理论基础能够在更聪明的系统中继续准确，否则事情可能很快就会出错。例如，你的技术99.9%准确，那么在50代之后变成95.12%准确，在500代之后变成60.5%准确。糟糕！

AI触及的一切都会获得巨大的生产力倍增器：就像AI正在显著提高软件工程师的生产力一样，我们应该期望AI触及的其他一切也会发生同样的事情。这引入了几个我们必须应对的问题：1）获取不平等： 假设对AI的需求继续超过算力供应，我们必须弄清楚在哪里分配AI以最大化社会效益。默认情况下，我对市场激励能否保证我们从有限的AI算力中获得最佳社会效益持怀疑态度。弄清楚如何分配AI研发带来的加速能力将是一个政治敏感的问题。2）经济的"阿姆达尔定律"： 当AI流入经济时，我们会发现因量增加而中断或变慢的地方，我们需要弄清楚如何修复这些薄弱环节。这可能在需要调和快速变化的数字世界与缓慢变化的物理世界的领域尤为明显，比如新医疗疗法的药物试验。

资本密集型、人力轻型经济的形成： 以上所有关于AI研发的证据也指向AI系统自主运营企业的能力不断增强。这意味着我们应该预期经济的越来越大一部分将被新一代公司所占据，这些公司要么是资本密集型的（因为它们拥有大量计算机），要么是运营支出密集型的（因为它们在AI服务上花费大量金钱并在此基础上构建价值），而与当今的企业相比相对轻人力——因为在AI系统能力持续扩展的后果下，在AI上花费更多与在人力上花费更多相比的边际价值将不断增长。在实践中，这看起来将像一个在更大的"人类经济"内部生长的"机器经济"，尽管我们可能预期随着时间的推移，机器经济将越来越多地与自己互动，因为AI运营的企业开始相互交易。这将对经济产生极其怪异的影响，并将引发关于不平等和再分配的各种问题。最终，可能会出现由AI系统自己运营的完全自治企业，这将加剧上述所有问题，同时带来许多新的治理挑战。

凝视黑洞： 考虑到所有这些，我认为到2028年底我们看到自动化AI研发（前沿模型能够自主训练其后继版本）的概率约为60%。基于上述分析，你可能会问为什么我不期望在2027年？答案是我认为AI研究包含一些对前进所需的创造力和非正统洞察的要求——到目前为止，AI系统还没有以变革性和重大的方式展示出这一点（尽管一些加速数学研究的结果暗示了这一点）。如果非要让我给出一个2027年的概率，我会说30%。如果到2028年底我们还没有看到它，那么我认为我们将揭示当前技术范式中的一些根本缺陷，这将需要人类的发明来推动事情前进。

我写这篇文章是为了冷静而分析性地应对几十年来似乎像科幻鬼故事一样的东西。在查看公开数据后，我发现自己被说服了——对许多人来说看似幻想的故事可能实际上是一个真实的趋势。如果这个趋势继续下去，我们可能即将见证世界运作方式的深刻变化。

原文链接: Import AI 455: AI systems are about to start building themselves

汇智网翻译整理，转载请标明出处