对AI进展的恐慌放错了地方

几天前,评估AI的智库METR发布了他们的最新图表,Twitter(X)迅速被恐慌淹没,包括大量类似下面的推文(以及上面那张):

以及

所有这些都是由METR最新版本的著名"时间跨度"图表引发的:

甚至通常清醒的预测者Peter Wildeford也担心Mythos已经"打破"了图表,意味着我们再也无法测量AI能力的极限了:

等一下。让我们深呼吸。

(让我们先忽略《深度学习正在撞墙》实际上是一篇关于纯扩展局限性的文章,而不是Wildeford所讨论的内容。)

METR的"时间跨度"图表所测量的是——有两个重要的注释我稍后会谈到——前沿模型能够完成的软件开发任务的长度(以时间衡量),以人类软件工程师为基准。

以前最好的"前沿模型"只能在占据人类一分钟的任务上"成功",然后能在两分钟的任务上"成功",然后四分钟,然后八分钟等等;现在到了十六小时(但请等一下注释)。

这意味着系统在越来越复杂的任务上 steadily 越来越好。

正如Ernest Davis和我一年前讨论的,这个任务的构思和实施方式存在很多问题,但目前为了论证,让我们先假设这个图表是精心制作的。

这里有一些背景信息

  • Claude Code是一个真正的进步;Mythos可能建立在从中学到的一些东西之上。但是……
  • 如果你仔细阅读METR关于他们图表的推文,它是关于达到*50%*成功率。不是100或99甚至90。(有一个80%版本,看起来没那么可怕;整体形状相同,但整体表现低得多。)
  • 正因为这个原因,Wildeford对Mythos"打破图表"的担忧是一个转移注意力的问题。他说Mythos基本上解决了METR为基准测试准备的所有任务。我不怀疑这是真的。但这只是在任意的50%成功率层面上是真的。如果你只是要求80%的成功率,当前的METR任务集上还有很大的上升空间;如果你要求95%的成功率,上升空间更大。(而且只看需要一两天的工作也是不公正的,软件工程师的实际工作可能涉及监督耗时数月或数年的项目。)
  • 更广泛地说,GenAI的关键问题一直是可靠性;一个只要求50%成功的图表完全不能解决可靠性能的问题。根本不能。
  • 该图表仅涉及软件开发任务。不是通用智能。
  • 它当然不能告诉你Mythos可以做人类在16小时内能做的大部分事情,更不用说可靠地完成。(例如,看一部没人看过的两小时好莱坞电影,然后合理地讨论关键情节要点。)
  • 重要的是,该图表没有展示改进是如何实现的。正如我在通讯中指出的,最近几个月的很多进步可能来自符号工具的整合(如代码解释器、验证和框架),而不是模型扩展本身。(顺便说,这又一次验证了神经符号AI——*而不是证明LLM本身可以无限扩展。*也不是证明再投入一万亿美元就能无限延续图表中显示的趋势。)
  • 根据Ramez Naam一个月前展示的图表,Mythos在更广泛的衡量标准ECI基准上实际上并没有偏离趋势。 Ramez Naam@ramez Anthropic的Mythos似乎没有显示出ECI的加速。将Anthropic内部ECI与@EpochAIResearch的公共ECI进行归一化后,可以清楚地看到这两个指标极为接近,Mythos基本上在趋势线上,只是略高于GPT 5.4。

底线:Mythos相对于其前身在编程方面确实非常好,但50%是一个很低的门槛,而且(a)我们没有95%或99%成功率的数据,我们不知道曲线是否会继续,(b)我们没有证据表明Mythos实际上是迈向广泛超级智能的重要一步。

相反,它的技术可能最适合编程和数学等领域,在这些领域可以直接应用形式化验证(经典符号AI获胜!)。

Ramez Naam昨天在这点上也很敏锐:

这是几天前关于金钱而非任务表现的更加离谱的外推:

预测Anthropic在2030年将有2万亿美元收入,是我常说的万亿磅婴儿谬误的完美例子:仅仅因为一个婴儿在最初四个月体重翻了一倍,并不意味着它会继续每隔几个月翻一倍,直到上大学。

昨天我在METR图表上一遍又一遍地看到万亿磅婴儿谬误的变体,人们假设最初翻倍的过程会不受阻碍地无限继续。很少有指数过程是这样的。

婴儿不会永远翻倍,AI的进展也不会。我们可能遇到资源约束(能源、芯片等);"基准最大化"(应试教育,这意味着构建围绕软件设计的工具)可能有限制;形式化验证技术可能在非形式化问题上遇到限制;某些类型的挑战(例如准确地基于世界模型进行推理、减少幻觉等)可能根本不适合当前方法;等等。

我们可以绝对确定的是,AI的任务长度"时间跨度"不会一直翻倍直到"时间跨度将是宇宙年龄的580倍",正如Lisan al-Ghaib开玩笑说的那样。

最重要的是,解决(某些方面的)软件设计不是开放式智能。AI确实在某些方面越来越好,但没有理由认为它已经接近完全通用。

我的强烈直觉是,Mythos在远程劳动指数(衡量机器人能完成的在线任务百分比的基准)上将低于20%,也许低于10%,在物理工作方面也没有实质性改善——这意味着可以被完全替代的真正全职人类工作数量仍将很少,至少目前如此。

简而言之,还没有必要恐慌。


原文链接:Misplaced panic over AI progress

汇智网翻译整理,转载请标明出处