AI的衰落开始了

美国一家大型律师事务所的合伙人于2025年坐在阿拉巴马州联邦法庭上,被要求解释她提交的一份动议中的五个案例引用。她无法解释。这五个案例无一存在。它们都是由AI工具凭空编造的,该工具以完全自信的方式呈现这些案例,格式与真实的引用完全相同,与真实的判例无异,直到法官去核实才发现问题。该事务所道歉、更新了AI政策,并承诺不会再犯。然后同样的事情再次发生。第二个案件里。然后是第三个。

1、法庭总结了一切

阿拉巴马州的案例不是一个关于糟糕律师的故事。

Gordon Rees Scully Mansukhani不是某个挣扎求生的地区性律所。它是一家全国性律师事务所,2024年总收入为7.59亿美元,在美国最大律所中排名第71位。它正是那种雇佣有数十年经验合伙人的律所——这些人懂规则,明白在法庭文件中编造引用不仅令人尴尬,还可能受到制裁。然而:该律所使用AI工具辅助撰写动议,AI工具编造了不存在的判例法,这些引用被提交给了2025年阿拉巴马州联邦破产法庭,法官注意到了问题,该律所道歉并承诺更新政策,被警告可能会面临终止制裁——然后又提交了第二份包含幻觉引用的简报。然后是第三份。

截至2026年4月,由法国研究员Damien Charlotin维护的数据库——追踪全球法院和法庭涉及AI生成幻觉的裁决——已达到1,174条记录。其中505起是制裁案件——罚款、律师协会转介、强制再培训、案件驳回。第六巡回上诉法院于2026年3月完全驳回了一起案件,并对律师处以3万美元罚款,明确原因是AI编造的引用。Sullivan & Cromwell,美国最负盛名的公司律所之一,因同一类错误向联邦法官道歉。法律行业在2025年和2026年的AI幻觉记录不是一个关于边缘案例的警示故事。它是一个模式,有追踪器,有数据库,有跨越数十个国家法院的超过一千起有记录的事件。

而让这不仅仅是一个法律行业故事的是:随着模型变得更好,情况变得更糟。OpenAI自己为o3(其最强大的推理模型)发布的系统卡记录显示,尽管在许多基准测试上能力有显著提升,但该模型在事实性问题上的幻觉比其前辈更多。一个能做博士级数学的模型会编造它找不到的引用。一个能编写生产代码的模型自信地陈述不存在的判例法。模型越能推理,就越难发现它编造的东西——因为编造得更好了。

本文探讨的是这种结构——不是作为孤立问题,而是作为同时汇聚在当前AI范式上的四个结构性失败之一。这四个问题中的任何一个单独都不一定是致命的。但它们共同描述了某种尚未发生但正在开始的事情:那个将AI行业带到如今位置的假设正在终结。

2、四大支柱,四大裂缝

当前的AI范式——称之为规模化范式——建立在一个看似简单的命题之上:更多算力、更多数据、更多参数、更多能力。正是这个命题在四年内将GPT-2带到了GPT-3再到GPT-4。正是这个命题将实验室估值推至数千亿美元,将超大规模资本支出承诺推至数万亿美元,并将政府产业政策推至全球芯片竞赛。这个命题并没有错——它确实奏效了,多年来,以非凡的规模。

但它有四个基础。而在2026年中的现在,这四个基础同时显示出结构性断裂。

经济学: 全球领先的AI实验室在2025年每创造1美元收入就花费1.60美元,运营亏损达209亿美元。其实现盈利的计划需要对收入增长做出如此巨大的押注,连互联网泡沫时代都会为之脸红。

数据: 训练当前一代模型的高质量人类文本正在耗尽。研究人员估计按照当前速度,到2028年将耗尽。实验室现在抓取的网页74%是AI生成的。人类数据的替代品是合成数据。而合成数据有一个问题。

规模化引擎: 预训练规模化——为2018年至2024年每一次重大能力跃升提供动力的引擎——在重要指标上的回报正在递减。领导OpenAI技术方向直到GPT-4的联合创始人Ilya Sutskever在2024年NeurIPS大会上表示"我们所知的预训练将终结"。过去能将模型拉开20个百分点的基准测试现在将它们聚集在几个百分点之内。曲线正在变平。

幻觉问题: 尽管经过多年研究、投入数十亿算力用于安全训练、RLHF、宪法AI以及该领域开发的每一种对齐技术——模型仍然会编造。而且,正如o3系统卡所示,新一代模型的编造方式比以前更难检测。现在有超过一千起记录在案的法庭案例作为证据。

这四个不是独立的不幸。它们有共同的根源。理解它们的共同之处,能让你精确地知道接下来会发生什么。

3、经济学:一家在众目睽睽之下失血的公司

OpenAI于2026年6月向SEC提交了保密IPO文件。在此之前,其2025年财务数据泄露——这些数字不是作为传言出现,而是作为记者Ed Zitron获取并经金融时报核实的经过验证的文件。

OpenAI在2025年创造了131亿美元收入——同比增长250%,这种增长速度足以定义一个普通公司的十年。而同一年它运营亏损达209亿美元,这一数字本身比上年增长了138%。其净亏损(包括非现金费用和会计调整)达到385亿美元。

仅微软一家,OpenAI在2025年就支付了172亿美元的算力费用,主要用于训练模型的成本。在130亿美元的收入基础上,它向主要基础设施提供商支付的费用超过了收入的130%。这不是一个烧钱等待规模经济的初创公司。这是一家基本成本结构——运行和训练前沿模型的价格——增长几乎与收入一样快的公司。

季度轨迹并不令人安慰。2026年第一季度,OpenAI录得57亿美元收入(年化约230亿美元),营业利润率为-122%,意味着单季度亏损近70亿美元。亏损绝对值正在扩大,尽管占收入百分比在缩小。累计来看,该公司预计在2024年至2029年间将烧掉1,150亿美元。

OpenAI的官方计划:到2030年实现2,000亿美元年收入,在2029年或2030年实现现金流为正。这一计划要求ChatGPT在四年内成为收入规模堪比整个云计算市场细分领域的产品——但没有明确证据表明用户会大规模支付使这种经济模式可行的价格。

Anthropic的轨迹不那么戏剧化,但结构相似。截至2025年底,两家公司年亏损均超过50亿美元。截至2026年,两家公司都处于潜在的价格战中,OpenAI正在考虑降低API token价格以争夺市场份额,而它在运营上的支出已经超过收入。

行业对此的回应是,这是基础设施建设,类似于1990年代的电信或2010年代的云计算——巨大的前期亏损,最终的网络效应和规模经济,最终的盈利。这个类比值得仔细审视,因为早期模式的历史包括一次电信繁荣、一次泡沫破裂和十年的复苏——而幸存下来的公司是那些拥有AI实验室仍在寻找的运营杠杆路径的公司。

OpenAI 2025年仅研发支出就达192亿美元——比2024年高出146%。同年其销售和营销支出增长了418%。其到2029年的累计预计亏损:1,150亿美元。2026年初的1,220亿美元融资买到了更多跑道,但没有改变底层结构。

4、数据地平线:井水正在枯竭

2023年,关于AI数据的主流叙事是关于抓取:AI公司在未经同意的情况下吸走互联网内容,引发了来自作者、记者、艺术家和软件工程师的版权担忧。这个叙事是真实的,法律战正在进行中。但它错过了一个更根本的问题:一开始就没有那么多高质量数据可以抓取。

Epoch AI——一个追踪AI训练趋势的研究机构——在2022年发布了一项预测(此后更新过),追踪公开可用高质量人类文本的存量与前沿模型数据集规模的对比。他们对存量耗尽时间的中位数估计:2028年。加速后的估计(假设实验室在现有数据上"过度训练"模型以提高推理效率——这已成为行业标准做法)将时间提前。根据同一分析中的一项估计,短缺最早在2026年就开始。

这不是一个遥远的理论担忧。看看今天的互联网是什么样子。

Ahrefs,这家SEO分析公司,在2025年4月分析了90万个新抓取的网页。74%主要包含AI生成的内容。不是一些。不是混合。而是主要。新网络上的文字绝大多数是机器生成的。另外,Graphite——一家内容研究公司——追踪了2020年至2025年间发表的65,000篇文章,发现到2024年11月,开放网络上AI生成的文章数量首次超过了人类撰写的数量。欧洲刑警组织在2022年预测,到2026年合成内容可能占所有在线材料的90%。根据当前轨迹,他们在方向和时间线上似乎都是正确的。

对训练数据管道的实际影响:AI实验室不能简单地继续抓取网络并期望训练数据的质量保持不变。他们现在抓取的网络越来越被他们之前模型的输出所占据。他们从一个自己部分填充的井中取水。你加入井中的水与之前的水质量不同。

5、模型崩溃:当AI在自己的错误上训练

对于大规模这样做会导致什么,现在有一个经过同行评审、发表在《自然》杂志上的名称。2024年7月,Ilia Shumailov——前Google DeepMind高级研究科学家——和他的同事们发表了在递归生成的数据上训练生成模型的结果。他们称之为:模型崩溃。

一旦你看到它,其机制就很直观了。人类生成的文本有一个特定的统计属性:它包含人类思想和表达的完整分布,包括罕见的、独特的、矛盾的和模糊的。当模型生成文本时,它不会重现这个完整分布——它产生在其训练条件下最可能的文本,自然会偏向分布的中心,远离尾部。如果下一代模型在这个输出上训练,它就是在已经被压缩到平均值的分布上训练。下一代进一步压缩。经过几个循环,罕见的想法消失了。多样的表达同质化了。模型的输出向已经是中心的东西的平淡中心收敛。模型产生"胡言乱语"(论文用的词)——看起来连贯,但失去了原始内容的丰富性。

时间线在这里很重要。到2025年4月,74.2%的新创建网页包含AI生成的文本。前沿实验室在连续爬取的网络数据上训练。2025年和2026年正在训练的模型已经在训练大量AI生成的内容——由它们所基于的模型创建的内容。Shumailov在受控实验中记录的自引用循环现在正在生产训练管道中以大规模、不完善的来源检测方式运行。

行业的应对是数据整理和来源追踪——从训练集中识别和过滤AI生成的内容。这些是真实的工程努力,有真实的预算。但它们是一场与网络的赛跑——网络生成AI内容的速度快于来源系统追踪它的速度,跨越数百种语言和格式,包括AI内容被积极冒充为人类创作的格式(科学论文、法律文件、技术文档)。

有一个值得指出的特殊讽刺:降低后继者训练数据质量的模型,正是被用来生成合成训练数据的模型——这是数据枯竭问题的一个拟议解决方案。由第N代模型生成的合成数据,用于训练第N+1代模型,正是Shumailov证明导致崩溃的递归训练管道。拟议的治疗方法和记录在案的疾病是同一个机制。

6、规模化引擎:我们所知的预训练将终结

在所有可能说这句话的人中,Ilya Sutskever可能是你最意想不到的。这位俄裔加拿大AI研究员共同创立了OpenAI,领导技术团队完成了GPT-3和GPT-4,是"仅靠规模就能产生智能"这一假设的三位原始共同架构师之一——在2024年12月NeurIPS大会上站在讲台上领取他的Test of Time Award时,他直白地说:

"我们所知的预训练将终结。"

他具体是指预训练范式——在大规模互联网文本上训练大规模模型,能力就会随之而来——已经到了一个临界点,仅仅添加更多相同原料已不能再产生相同回报。数据墙解释了部分原因。但还有一个更简单的衡量故事:看看基准测试显示什么。

MMLU,自2021年以来追踪LLM能力的综合性多项选择基准,已经几乎无法区分前沿模型了。排名前十几的前沿和开源模型聚集在几个百分点的差距内,接近人类专家水平。OpenAI的DeepSeek-R1-0528在MMLU上得分90.8%——与GPT-4的91.8%基本相同。基准测试无法告诉你哪个模型更好,因为所有模型都达到了MMLU所能衡量的天花板。

该领域的回应是创建更难的新基准——人类最后的考试(HLE)、FrontierMath——专门设计用于区分在较简单测试上得分接近100%的模型。当前前沿模型在HLE上的得分低于25%,在FrontierMath上低于2%。这些基准测试不是表明AI无法推理;它们表明,超出当前前沿能力之外的领域是真正未经探索的,而且那里的进展比过去定义该领域轨迹的基准测试上的进展慢得多。

紧随这一认识之后的技术转变是真实且显著的:测试时计算扩展——在推理期间投入更多计算(而不仅仅在训练期间),让模型在回答之前更长时间地思考。OpenAI的o1和o3、Google DeepMind的推理变体、Anthropic的扩展思维模式:所有这些都是同一洞察的不同表现形式。当你无法从训练运行中获得更多时,就从推理步骤中获得更多。

这确实很有价值。但这是一个与原始规模化论点不同的赌注,有着不同的经济学和不同的含义。训练一次模型然后廉价部署是一种商业模式。在推理时每次查询花费十倍到百倍的计算量改变了成本结构——这也是推理计算成本没有遵循与训练成本相同的下降曲线的部分原因。从"训练更大"到"思考更久"的转变是一个真正的能力提升。同时也是承认,规模的第一个轴不再能证明为其做出的万亿美元赌注的合理性。

7、幻觉问题随着模型变得更好而恶化

这四个失败独立来看已经令人担忧。但它们同时出现之所以具有结构性危险,是因为一个特定的动态:它们相互加剧。幻觉问题——大语言模型中最古老、最公开可见的失败模式——本应是规模和对其训练所解决的东西。但它并没有。

OpenAI自己在2025年4月发布的o3和o4-mini系统卡记录了一个与这一假设相矛盾的发现。在SimpleQA(一个事实性问答基准)上,o3的幻觉率高于GPT-4o,尽管在其他维度上它是一个能力更强的模型。更强的推理能力。更多关于事实的编造。能做复杂多步推理的模型在特定事实是否真实方面却更不可靠。

这个模式在技术上是合理的。推理模型思考时间更长,这意味着它们有更多机会构建听起来合理的逻辑链,这些逻辑链会导向错误的结论。流畅度提高了。接地性却没有跟上。来自早期GPT-3模型的幻觉看起来是错的——生硬、明显机械。而o3的幻觉看起来像是优秀、自信、推理良好的散文,只是恰好是错的。旧错误更容易被发现。

这就是产生1,174起法庭案例的动态。不是因为律师粗心地使用AI——Gordon Rees案件涉及一家大律所的高级合伙人。而是因为大语言模型的特定失败模式——自信、流畅的编造——几乎与自信、流畅的准确输出无法区分,而且它发生的基准率使得对每一个AI生成的声明进行检查,在AI实际增加价值的工作流中成本过高。

截至2026年4月,AI幻觉案例数据库追踪了全球法院和法庭的1,174项裁决。505起是制裁案件。第六巡回法院完全驳回了一起案件,并对律师处以3万美元罚款,明确原因是AI编造的引用。ECRI将AI聊天机器人误用列为2026年排名第一的医疗安全隐患——排在用药错误、手术并发症和设备故障之上。

医疗领域可能比法律领域更严重。ECRI——健康技术安全组织——将通用AI聊天机器人置于其2026年危害清单的首位,明确指出ChatGPT、Claude、Copilot、Gemini和Grok等工具未经临床使用验证,也未作为医疗设备受到监管。一个名为MedHallu的基准测试建立在10,000个医疗问答对之上,发现包括GPT-4o、Llama-3.1和专业医疗AI变体在内的最先进模型在困难的医疗幻觉检测上表现挣扎——最好的模型在困难类别上的F1得分仅为0.625。法律数据库记录的是进入法庭的案例。临床事件更难统计。

8、四个失败的共同点

从具体细节后退一步,这四个问题有一个共同的结构。它们都以各自不同的方式,是同一个假设的后果:当前的方法——训练更大、扩展更多数据、用人类反馈优化——只要有足够的资源和时间,就能收敛到可靠、接地、经济上自给自足的智能。

经济学问题是"规模会产生智能垄断"这一假设的后果,证明任何投资的合理性。数据问题是"互联网包含无限高质量训练材料"这一假设的后果。规模化平台期是"预训练规模化曲线会持续到可用数据耗尽之后"这一假设的后果。幻觉问题是"对齐训练——RLHF、宪法AI及其变体——会随着模型能力增强而收敛到真实接地性"这一假设的后果。

这些假设在2020年没有一个是合理的。它们推动了真正的进步。但它们都在2025年和2026年同时接受现实的检验,而现实在四个方面都显示出不完整性。时机上的巧合并非巧合——它是一个范式在特定时刻被定义、尽可能扩展,现在正遇到该范式一直存在的限制的自然终点。

这就是本文标题中"衰落"的含义。不是AI的死亡。不是一项技术被抛弃。而是一个特定范式的衰落——即当前方法会线性外推到通用智能、可信赖系统、经济自给自足的假设。这个假设在其所有四个基础上同时失败,正值制度性投入达到最高点的时刻。

9、后继者尚未大规模存在

该领域知道这一点。对每个个体危机的应对已经在进行中。

对经济问题的回应是IPO——将私人亏损转化为公开市场资助的亏损,同时希望收入增长最终弥合差距,并同时希望市场不要在增长之前给亏损定价。

对数据枯竭问题的回应是合成数据生成——让模型创造它们需要训练的数据。问题在于,正如Shumailov的模型崩溃研究所记录的,这正是降低质量的反饋循環。提议的解决方案和记录在案的问题是同一个机制。

对规模化平台期的回应是测试时计算——通过扩展推理链在推理时花费更多计算。这正在特定、可验证的任务上产生真正的能力提升。但它没有解决成本结构问题或事实接地性问题。

对幻觉问题的回应是检索增强生成、宪法AI和结构化验证。这些措施在可衡量的基准上降低了幻觉率。但它们并没有消除失败模式——1,174起法庭案例证实了这一点。

真正能同时解决这四个问题的方案将是一个完全不同的范式——模型不仅仅是预测可能的token,而是真正推理真理;训练数据是可验证和事实性的,而不是从互联网文本的概率混沌中抓取的;成本结构是可持续的,无需曲棍球棒式的收入增长;能力提升不会同时在事实性任务上增加编造风险。

这样的范式在概念上是存在的。它有名字:神经符号AI、形式化验证、知识接地架构、定理证明系统。像DeepMind的AlphaGeometry和AlphaProof这样的系统——使用神经网络生成候选证明,使用符号系统验证它们——代表了一个方向。它们产生可证明正确的结果,因为正确性是评估函数,而不是概率预测。它们在关键意义上不会产生幻觉,因为错误的输出在发布之前就被拒绝了。

但这些系统都没有达到前沿语言模型的规模或通用性。神经符号研究已经进行了几十年,但没有产生一个能像GPT-4那样跨任意领域讨论、写作和推理的通用系统。从当前范式到后续范式的过渡不是干净利落的交接——它是一个间隙,持续时间未知,在这个间隙中,当前范式明显开裂,而下一个范式还没有准备好接替。

10、衰落究竟意味着什么

标题中的这个词是精确的。衰落不是灭绝。它是从一个无法维持的位置上跌落——一个承诺与可交付之间的差距变得太大而无法忽视的特定时刻。

AI作为一个领域不会消失。这项技术是真实的。过去五年的进步是真实的。这些工具是有用的。研究人员是杰出的,工程是卓越的,许多应用确实具有变革性。这些都没有争议。

开始衰落的是使当前投资周期成为可能的特定叙事:我们正处于一条持续向上的曲线,通往有能力、可靠、经济自给自足的通用智能,唯一剩下的问题是多快能到达以及谁会赢。这个叙事证明了一家公司在一年内385亿美元的亏损的合理性。它证明了数万亿美元基础设施承诺的合理性。它证明了围绕AI作为战略资源的政府产业政策的合理性。它建立在四个假设之上——关于经济、数据、规模化、可靠性——而这些假设都在同一个短暂的时间窗口内失效。

法庭案例是一个有用的指标,因为它们是外部的。它们不是AI公司报告的,不是经过公关过滤的,不是由投资者关系塑造的。它们是AI输出遇到具有真实利益的制度性验证时发生情况的记录——而且越来越多的记录显示,模型自信地说的内容并不真实。法官要求律师出示引用的案例却发现它不存在,这是对AI声称的最干净可能的对抗性测试。结果是1,174次并且还在增加——失败。

衰落并不意味着实验室关门。这意味着当前的假设面临清算。这意味着意味着8000亿美元私人公司估值的估值前提需要经受公开市场审查和审计财务报表的考验。这意味着测试时计算的转变意味着与预训练范式完全不同的成本结构,而市场尚未完全为此定价。意味着合成数据作为训练输入带有崩溃风险,该领域正竞相管理这一风险,却没有成熟的解决方案。

最精确地说:衰落意味着将AI带到这里的范式在四个维度上同时失去了跑道——而下一个范式还没有准备好让飞机着陆。

那个时刻尚未完全到来。1,174起法庭案例不是悬崖边缘。OpenAI 209亿美元的运营亏损不是破产申请。规模化平台期不是能力上限。模型崩溃尚未运行到完成。每一个都代表一个基础中的裂缝,而不是它的坍塌。

但在2026年,裂缝第一次同时全部可见,对任何愿意看的人来说都是如此。AI的衰落——当前行业建立、定价、监管和部署的特定版本的AI——不是一个未来的预测。它是一个当下的观察。


原文链接:The Downfall of AI Begins

汇智网翻译整理,转载请标明出处