对AI进展的恐慌放错了地方

几天前，评估AI的智库METR发布了他们的最新图表，Twitter（X）迅速被恐慌淹没，包括大量类似下面的推文（以及上面那张）：

以及

所有这些都是由METR最新版本的著名"时间跨度"图表引发的：

甚至通常清醒的预测者Peter Wildeford也担心Mythos已经"打破"了图表，意味着我们再也无法测量AI能力的极限了：

等一下。让我们深呼吸。

（让我们先忽略《深度学习正在撞墙》实际上是一篇关于纯扩展局限性的文章，而不是Wildeford所讨论的内容。）

METR的"时间跨度"图表所测量的是——有两个重要的注释我稍后会谈到——前沿模型能够完成的软件开发任务的长度（以时间衡量），以人类软件工程师为基准。

以前最好的"前沿模型"只能在占据人类一分钟的任务上"成功"，然后能在两分钟的任务上"成功"，然后四分钟，然后八分钟等等；现在到了十六小时（但请等一下注释）。

这意味着系统在越来越复杂的任务上 steadily 越来越好。

正如Ernest Davis和我一年前讨论的，这个任务的构思和实施方式存在很多问题，但目前为了论证，让我们先假设这个图表是精心制作的。

这里有一些背景信息：

Claude Code是一个真正的进步；Mythos可能建立在从中学到的一些东西之上。但是……
如果你仔细阅读METR关于他们图表的推文，它是关于达到*50%*成功率。不是100或99甚至90。（有一个80%版本，看起来没那么可怕；整体形状相同，但整体表现低得多。）
正因为这个原因，Wildeford对Mythos"打破图表"的担忧是一个转移注意力的问题。他说Mythos基本上解决了METR为基准测试准备的所有任务。我不怀疑这是真的。但这只是在任意的50%成功率层面上是真的。如果你只是要求80%的成功率，当前的METR任务集上还有很大的上升空间；如果你要求95%的成功率，上升空间更大。（而且只看需要一两天的工作也是不公正的，软件工程师的实际工作可能涉及监督耗时数月或数年的项目。）
更广泛地说，GenAI的关键问题一直是可靠性；一个只要求50%成功的图表完全不能解决可靠性能的问题。根本不能。
该图表仅涉及软件开发任务。不是通用智能。
它当然不能告诉你Mythos可以做人类在16小时内能做的大部分事情，更不用说可靠地完成。（例如，看一部没人看过的两小时好莱坞电影，然后合理地讨论关键情节要点。）
重要的是，该图表没有展示改进是如何实现的。正如我在通讯中指出的，最近几个月的很多进步可能来自符号工具的整合（如代码解释器、验证和框架），而不是模型扩展本身。（顺便说，这又一次验证了神经符号AI——*而不是证明LLM本身可以无限扩展。*也不是证明再投入一万亿美元就能无限延续图表中显示的趋势。）
根据Ramez Naam一个月前展示的图表，Mythos在更广泛的衡量标准ECI基准上实际上并没有偏离趋势。 Ramez Naam@ramez Anthropic的Mythos似乎没有显示出ECI的加速。将Anthropic内部ECI与@EpochAIResearch的公共ECI进行归一化后，可以清楚地看到这两个指标极为接近，Mythos基本上在趋势线上，只是略高于GPT 5.4。

底线：Mythos相对于其前身在编程方面确实非常好，但50%是一个很低的门槛，而且（a）我们没有95%或99%成功率的数据，我们不知道曲线是否会继续，（b）我们没有证据表明Mythos实际上是迈向广泛超级智能的重要一步。

相反，它的技术可能最适合编程和数学等领域，在这些领域可以直接应用形式化验证（经典符号AI获胜！）。

Ramez Naam昨天在这点上也很敏锐：

这是几天前关于金钱而非任务表现的更加离谱的外推：

预测Anthropic在2030年将有2万亿美元收入，是我常说的万亿磅婴儿谬误的完美例子：仅仅因为一个婴儿在最初四个月体重翻了一倍，并不意味着它会继续每隔几个月翻一倍，直到上大学。

昨天我在METR图表上一遍又一遍地看到万亿磅婴儿谬误的变体，人们假设最初翻倍的过程会不受阻碍地无限继续。很少有指数过程是这样的。

婴儿不会永远翻倍，AI的进展也不会。我们可能遇到资源约束（能源、芯片等）；"基准最大化"（应试教育，这意味着构建围绕软件设计的工具）可能有限制；形式化验证技术可能在非形式化问题上遇到限制；某些类型的挑战（例如准确地基于世界模型进行推理、减少幻觉等）可能根本不适合当前方法；等等。

我们可以绝对确定的是，AI的任务长度"时间跨度"不会一直翻倍直到"时间跨度将是宇宙年龄的580倍"，正如Lisan al-Ghaib开玩笑说的那样。

最重要的是，解决（某些方面的）软件设计不是开放式智能。AI确实在某些方面越来越好，但没有理由认为它已经接近完全通用。

我的强烈直觉是，Mythos在远程劳动指数（衡量机器人能完成的在线任务百分比的基准）上将低于20%，也许低于10%，在物理工作方面也没有实质性改善——这意味着可以被完全替代的真正全职人类工作数量仍将很少，至少目前如此。

简而言之，还没有必要恐慌。

原文链接：Misplaced panic over AI progress

汇智网翻译整理，转载请标明出处