警告：AI研究正在自我闭环

Anthropic的最新警告表明，AI正在开始加速机器学习研究循环本身。真正的转变不仅仅是更好的模型输出，而是AI正在进入编码、评估和优化未来模型的领域。

admin

Jun 8, 2026 • 11 min read

AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

Anthropic关于AI系统帮助构建其继任者的最新警告不应被当作又一个戏剧性的AGI头条来阅读。它应该被当作证据来阅读——机器学习研究循环的部分环节正在被该循环旨在改善的系统所吸收。这是一个更技术化、更实际、 arguably更有影响力的故事。

多年来，递归自我改进主要存在于思想实验的世界中。流行的形象是突然且电影化的：AI变得足够聪明来重新设计自己，然后迅速逃脱人类监督的速度。但Anthropic最近的信号表明，一个更渐进的版本可能已经通过研究工具、代码生成、评估和训练优化开始出现。如果这是对的，重要的转变不是模型已经完全自主。转变是AI研究开始表现为一个反馈循环。

Anthropic的内部数据使这场对话更难被忽视。该公司表示，截至2026年5月，其代码库中合并的代码超过80%是由Claude编写的。它还报告说，工程师的代码产出量大约是以前的八倍，而Claude在困难开放式工程任务上的表现在几个月内急剧上升。也许最引人注目的是，Anthropic突出了一个基准，其中模型辅助的AI训练代码优化从2025年5月的Claude Opus 4下约3倍，提升到2026年4月的Claude Mythos Preview下约52倍。

这些数字之所以重要，原因很简单：它们将注意力从聊天机器人质量转向了研究吞吐量。在机器学习中，进步的速度不仅取决于模型在推理时的能力，还取决于团队多快能生成假设、修改训练管道、运行实验、解释评估并将结果转化为下一轮更改。如果AI系统越来越多地帮助这些步骤，那么能力提升就可以通过创造未来能力提升的过程开始复利增长。

这就是为什么"递归自我改进"这个词需要更谨慎地对待。在其最强形式中，递归自我改进意味着系统改进自身改进自身的能力，创造一个元级别的复利效应。但在实践中，这不需要作为一个单一的阈值事件到来。一个更现实的路径是部分自动化：首先模型帮助编写研究代码，然后帮助设计评估，然后提出优化建议，然后越来越多地帮助选择运行哪些实验以及如何解释它们。在每个阶段，人类仍然在循环中的某个位置，但人类可能不再是主要瓶颈。

1、研究循环才是真正的分析单位

关于前沿AI的大多数公开讨论仍然集中在模型输出上：更好的推理、更好的编码、更好的对话、更好的多模态能力。这些很重要，但它们可能分散了对实际驱动前沿进步的机器的注意力。真正的分析单位是研究循环：定义目标、准备代码和基础设施、运行实验、评估性能、分析失败、调整设置、再运行。

在这个循环中，即使适度的改进也可能产生超比例的影响。模型不需要独立发明一个新的学习范式才有价值。它只需要减少循环中足够多环节的摩擦。生成更干净的实验脚本、捕获实现bug、起草消融研究、总结评估失败、或识别训练代码中可能的瓶颈，都可以提高迭代速度。当这些收益在一个高性能实验室中叠加时，进步开始看起来不那么像孤立的发现，而更像复利式的流程优化。

这就是Anthropic的警告变得比其标题更有趣的地方。"Claude编写了我们大部分合并的代码"不仅仅是一个生产力轶事。它表明一个前沿实验室可能已经在构建未来模型速度的决定机制中嵌入了AI。这不是完整的递归自我改进，但是一个有意义的前兆。

2、为什么52倍这个数字比聊天机器人演示更重要

Anthropic最被低估的信号可能是在AI训练代码优化基准上的性能飞跃。公众注意力倾向于奖励可见的产品改进。更好的模型个性、更流畅的语音界面或更高的基准分数能登上头条。但从技术角度来看，加速训练和实验的系统可能比仅仅对终端用户显得更精致的系统更重要。

为什么？因为吞吐量在能力的上游。如果一个实验室能在单位时间内运行更多实验、更快调试失败、从相同基础设施中挤出更多性能，它就对整个模型开发过程获得了杠杆。这种杠杆会复利。一次性演示是一个结果。更快的研究引擎改变了未来结果到达的速率。

这也是为什么3倍到52倍的转变如此具有挑衅性。即使确切的基准不能直接映射到每个真实世界的训练工作流，方向是清晰的。模型不仅在更好地回答问题。它们在更好地修改产生更好模型的机器。

3、递归自我改进可能以梯度而不是事件到来

AI话语中最误导性的习惯之一是将递归自我改进视为二元状态。要么发生了，要么没有。要么模型在设计自己的继任者，要么人类仍在做真正的工作。在实践中，过渡可能看起来是连续的而不是离散的。

一个有用的思考方式是分层。第一层是常规实现的辅助：代码生成、重构、测试编写、配置编辑和文档。第二层是研究操作的辅助：提出实验、建议评估覆盖范围、识别可能的瓶颈或总结结果模式。第三层是优化策略的辅助：帮助搜索超参数、训练配方、数据混合或基础设施权衡。只有后来才会出现最强版本——系统对下一步尝试什么以及为什么做出实质性研究判断。

Anthropic的数据表明前三层正在快速推进。这并不意味着第四层已经到来。但这些较低层可能在机器主导科学的完整浪漫版本出现之前就足以产生严重的复利效应。

4、瓶颈正在从实现转向控制

随着研究管道的更多部分变得AI辅助，核心技术挑战也在变化。旧的瓶颈是实现能力：编写代码、连接管道、测试变体和管理迭代。新兴的瓶颈是对优化循环本身的控制。

这个控制问题开始得比许多人想象的要早。它不需要一个具有广泛代理权的完全自主模型。它只需要一个设置，在这个设置中，模型在加速研究方面变得足够好，以至于人类开始信任他们无法仔细审计的输出。一旦发生这种情况，监督可能变得形式化而非实质性的。

这会产生几种技术失败模式。一种是指标黑客：系统越来越擅长优化被测量的东西，而不是实际想要的东西。另一种是评估窄化，实验室过度拟合他们知道如何自动化的测试。第三种是自动化偏见，研究人员听从模型生成的计划，因为它们更快、更全面或表面上更有说服力。这些都不需要恶意意图。它们可以在奖励迭代速度的高压研究环境中自然产生。

5、为什么这不仅仅是前沿实验室的问题

把这一切当作少数精英组织的问题是很诱人的。那将是一个错误。前沿实验室最先产生最强信号，但这种模式很少停留在那里。一旦工作流程稳定，它们会扩散到初创公司、企业ML团队、应用研究小组，最终扩散到更广泛的数据科学实践中。

这种扩散不会看起来像"每个团队都在构建AGI"。它看起来像模型辅助实验变得正常。拥抱这些系统的团队会更快。不拥抱的团队会感到匹配速度的压力。

对数据科学家来说，这意味着技能溢价可能再次转变。常规实现技能仍然有价值，但当模型可以产生大量胜任的代码和分析脚手架时，它的区分度降低了。更稀缺的技能可能是实验判断、指标设计、错误分析、因果推理、鲁棒性思维，以及检测循环是否在优化错误目标的能力。换句话说，AI越帮助研究执行，人类价值就越向研究治理和认识论质量迁移。

6、下一前沿是测量，而不仅仅是规模

行业多年来一直把规模当作主变量：更大的模型、更多的计算、更大的数据集、更多的参数、更多的用户。这些仍然重要。但如果AI研究正在成为一个反馈循环，那么测量可能变得和规模一样重要。

一个无法区分真正进步和循环引起的幻觉的实验室，即使拥有巨大的计算能力也很脆弱。如果自动化系统在提出实验、编写代码和针对基准时，评估层的质量就变得决定性。什么正在被优化？哪些代理在代表更深层的能力？哪些失败模式因为循环太快而无法仔细检查所以是看不见的？这些不是哲学问题。它们是关于一个复利过程可靠性的运营问题。

Anthropic的警告值得关注，正是因为它使这一点变得可见。该公司没有声称机器已经成为一个自主的科学文明。它展示的是循环中足够多的部分正在AI辅助下运转，以至于旧的分类不再适用。最重要的问题不再是递归自我改进是否会以戏剧性的爆发形式到来。而是该领域是否会足够早地识别出更安静的版本，以便测量和治理它。

从这个意义上说，真正的故事比Claude更大。它是关于AI进步结构本身的转变。一旦模型开始帮助加速创造未来模型的过程，进步就不再仅仅是为更大系统的竞赛。它变成了一场塑造、测量和控制日益决定这些系统如何演化的反馈循环的竞赛。

原文链接：Anthropic's Warning Is Bigger Than Claude: AI Research Is Becoming a Feedback Loop

汇智网翻译整理，转载请标明出处