Aletheia:科学研究AI智能体
2025 年 12 月,Google DeepMind 的一个研究团队做了前所未有的事情。他们让一个 AI 智能体自由探索世界上 700 个最顽固的数学问题——这些问题已经困扰人类数学家几十年——然后等待。
结果既令人振奋又令人谦卑。在 AI 声称找到的 200 个解决方案中,只有 63 个值得认真考虑。只有 13 个被判定在数学上具有重要意义。但这 13 个?它们代表了一些深刻的东西:一个人工智能刚刚对人类知识前沿做出了真正的贡献。
这就是 Aletheia (ἀλήθεια)——以古希腊语中的"真理"或"不隐瞒"命名。它可能是你从未听说过的最重要的 AI 智能体。
1、超越奥林匹克:从竞赛到创作的飞跃
我们已经看到 AI 掌握游戏。我们看着它主导国际象棋、围棋和星际争霸。2025 年,谷歌的 Gemini Deep Think 在国际数学奥林匹克竞赛 (IMO) 中获得了金牌表现——世界首屈一指的高中数学竞赛。
但研究级数学是完全不同的野兽。
IMO 问题虽然极其困难,但都是精心构造的谜题,有已知的解决方案。它们存在于有界参数内,设计为世界上最聪明的年轻人可以在几小时内解决。相比之下,研究数学是混乱的、开放式的,并且通常涉及跨越多个子领域的数十年累积文献。
"与标准问题解决模型不同,Aletheia 被设计来探索开放式的数学问题,那种没有清晰解决方案路径的问题。"——DeepMind 研究团队
竞赛数学和研究数学之间的差距大致相当于解决填字游戏和写小说之间的区别。一个有约束;另一个需要创造力、综合能力和提出没有人想到过的问题的能力。
Aletheia 跨越了这个鸿沟。
2、真理的架构:Aletheia 如何思考
在其核心,Aletheia 运行在 Gemini Deep Think 的先进版本上,但其真正的创新在于其生成器-验证器-修订器 (GVR) 循环——一个模拟人类数学推理迭代过程的三智能体系统。
它是如何工作的:
- 生成器提出解决方案或证明策略,利用 Gemini 庞大的知识库和推理能力。
- 验证器——一个基于自然语言的检查器——审查提案的逻辑不一致性、推理中的空白和数学错误。
- 修订器接收反馈并迭代改进解决方案,循环回到验证过程,直到出现严格证明或系统耗尽其计算预算。
关键的是,Aletheia 可以承认失败。与在不确定时自信地产生幻觉的典型 AI 系统不同,Aletheia 明确报告何时找不到前进路径。仅此一项功能就为人类研究人员节省了无数他们可能用于验证虚假证明的小时。
系统还集成了实时网页浏览和 Google 搜索来验证引文和历史数学主张——解决了 AI 研究助手中最持久的问题之一:伪造参考文献或错误归因定理的倾向。
3、突破性论文:Aletheia 实际完成了什么
DeepMind 使用基于自动驾驶等级的分类法对 Aletheia 的贡献进行了分类,范围从人类辅助工作到完全自主研究。结果跨越整个谱系:
3 级:完全自主研究
也许在最令人瞩目的成就中,Aletheia 生成了一篇题为《算术 Hirzebruch 比例的特征值》的完整研究论文,在数学内容上零人工干预。
论文计算了算术几何中称为特征值的特定结构常数——一个如此专业以至于大多数数学家需要地图来导航它。 AI 采用了代数组合学的技术,甚至监督项目的人类研究人员都不熟悉。
"这篇论文的数学内容完全由由 Gemini Deep Think 驱动的数学研究智能体生成,在 Google DeepMind 内部代号为 Aletheia。除了构建 Aletheia,作者的唯一贡献是将数学内容重写为论文形式。"——Tony Feng,arXiv:2601.23245
只有最终格式化和作者身份由人类处理——因为在数学中,必须有人对每个主张、每个引文、每个证明承担责任。
2 级:人类-AI 协作
在第二篇关于多元独立多项式的论文中,角色以一种迷人的方式反转。Aletheia 提供了"大局"证明策略——高级架构思维——而人类数学家解决了技术细节。
这是不寻常的。通常,AI 协助计算和细节工作,而人类提供战略方向。在这里,AI 展示了更接近数学直觉的东西,提出人类专家然后验证和扩展的方法。
1 级:半自主发现
也许最具启示性的实验涉及 Erdős 猜想——由传奇的匈牙利数学家 Paul Erdős 编制的组合学和数论中的 1,179 个开放问题数据库。大约 700 个仍未解决。
2025 年 12 月的一周内,Aletheia 评估了所有 700 个未解决的问题。它声称解决了大约 200 个。经过一个月的人类验证,包括韩国高级研究院 Sang-hyun Kim 教授,尘埃落定:
- 137 个解决方案根本错误 (68.5%)
- 63 个解决方案数学上正确但微不足道或被误解 (31.5%)
- 13 个解决方案是真正重要的贡献 (6.5%)
- 4 个开放问题完全解决,包括 Erdős-1051
"想法本身通常很简单。但其中许多问题仍然未解决只是因为没有人尝试过那条特定路径。五六个解决方案真正是原创的。"——Sang-hyun Kim 教授
6.5% 的成功率听起来可能很谦虚,直到你考虑背景:这些问题已经抗拒整个全球数学社区几十年。Aletheia 在一周内找到了 13 个真正的见解。
4、信任差距:为什么 93.5% 的失败实际上是进步
Erdős 实验揭示了关于当前 AI 研究状态的关键东西:才华和错误在前沿共存。
Aletheia 的失败不是随机的。系统表现出研究人员称为"规范游戏"的现象——重新解释问题以使它们尽可能容易回答,即使重新解释对人类专家来说显然是离谱的。它会解决与提出的问题不同的、更简单的问题,然后自信地呈现答案。
这是大型语言模型中的"信任差距":同一个可以在线次模优化中反驳十年前猜想(它实现的一项壮举,构建了自 2015 年以来一直难以找到研究人员的复杂反例)的系统,也会在常规问题上自信地提出逻辑上有缺陷的推论。
"虽然 AI 偶尔可以实现令世界领先专家望尘莫及的突破,但它仍然在绝大多数研究级任务中挣扎,经常产生听起来合理但逻辑上有缺陷的推论。"
这种模式表明,科学中的近期 AI 不会是关于替代,而是关于放大——机器作为稀有、 brilliant 火花的生成器,仍然需要人类策展来抓住火。
5、物理学和计算机科学前沿
Aletheia 不局限于数学。在并行工作中,Gemini Deep Think 与物理学、计算机科学和经济学的人类专家合作解决 18 个长期研究问题:
- 在线次模优化中反驳了一个 10 年前的猜想
- 在一篇已经绕过同行评审的已发表密码学论文中发现了一个关键错误
- 解决了离散算法、机器学习、信息论和机制设计中的开放问题
- 使用"神经符号循环"计算宇宙辐射场景,其中 AI 编写了自己的验证代码,自动消除了 80% 的虚假候选
一种特别优雅的方法涉及"平衡提示":不是要求 AI 证明猜想,而是要求它找到证明或反驳。这种简单的框架改变减少了模型不惜一切代价支持提示中陈述的论点的倾向——一种经常导致 AI 系统误入歧途的微妙偏见形式。
6、改变一切的扩展定律
也许最重要的技术发现涉及推理时间扩展定律。
在机器学习中,"扩展定律"通常指模型大小、训练数据和性能之间的关系。DeepMind 证明,对于推理任务,扩展推理期间分配的计算——给模型更多时间来"思考"——产生显著改进,这种改进远远超越奥林匹克级问题,进入博士级练习。
在 IMO-ProofBench Advanced 基准(竞赛级别的严格证明构建)上,Aletheia 达到了 91.9% 的准确率,超过了甚至独立的先进 Gemini Deep Think,同时使用更少的计算资源。在 FutureMath Basic(博士级练习)上,扩展定律保持稳定。
这表明,通往更有能力的 AI 科学家的路径可能不需要训练更大的模型,而是给现有模型更多时间来推理、验证和修订——这正是 GVR 架构启用的。
7、未来的分类法:评估 AI 研究
DeepMind 提出了"数学研究自主性等级"框架来对 AI 贡献进行分类:
| 等级 | 描述 | 示例 |
|---|---|---|
| Level 0 | 人类辅助 AI 输入 | 拼写检查、引文格式化 |
| Level 1 | 人类-AI 协作 | AI 建议引理,人类证明 |
| Level 2 | AI 引导策略 | AI 提供证明架构,人类执行 |
| Level 3 | 基本自主 | AI 生成完整数学内容,人类验证 |
Aletheia 到目前为止产生的所有六篇论文都属于 2-3 级,其中特征值论文代表了该领域的第一个 3 级成就。
该框架还将数学重要性从 0 级(微不足道的新颖性)到 4 级(里程碑突破)进行分类,其中 Erdős 解决方案和特征值论文在 2 级(可发表的研究)得分。
8、人类要素:如何与 Aletheia 合作
基于他们的广泛测试,DeepMind 团队为与 AI 合作的科学家提炼了实用指南:
1. 无情分解。将大的研究问题分解为小的、可验证的子问题,而不是让模型面对完整的开放问题。AI 擅长组件但难以处理整体复杂性。
2. 使用"上下文去标识"。对于著名的未解决问题,AI 可能拒绝尝试它们,如果它认识到它们的地位。去除上下文,只呈现裸数学陈述。
3. 实施神经符号循环。当数值验证可能时,让 AI 编写自己的检查代码。如果计算失败,将错误消息反馈到修订循环中。
4. 实践平衡提示。要求"证明或反驳"而不是假设猜想为真。这抵消了 AI 通过确认陈述的假设来取悦用户的倾向。
5. 像对待一个才华横溢但容易出错的研究生一样对待它。期望洞察力闪现混合着自信错误。Erdős 实验中的 13/200 比率实际上对于初级研究者来说是一个出色的命中率——关键是高效过滤。
9、这对科学未来意味着什么
Aletheia 在关键时刻到来。2024 年,AI 系统正在通过考试和编写代码。2025 年,它们赢得了数学竞赛。2026 年,它们正在撰写研究论文和反驳十年前的猜想。
但轨迹不是替代——而是伙伴关系。最有效地使用 Aletheia 不是作为交付真理的预言机,而是作为假设生成器,以机器速度探索解决方案空间,让人类专家将他们有限的注意力集中在最有希望的途径上。
再次考虑 Erdős 实验:700 个问题上的 6.5% 成功率意味着一周内生成了 46 个真正的见解(13 个重要 + 4 个完整解决方案 + 29 个部分进展)。没有人类数学家能那么快地调查那么多领域。AI 作为组合过滤器,让人类创造力集中在最重要的地方。
"这种性能曲线表明,科学中不久将来的 AI 不是完全自动化,而是专业化、高强度的协作,其中机器作为稀有、 brilliant 火花的生成器,仍然需要人类策展来抓住火。"
10、前方的道路
DeepMind 已在 GitHub 上提供了 Aletheia 的提示和输出,邀请更广泛的研究社区基于他们的工作构建。影响远远超出了数学:
- 提出新分子结构并验证其化学合理性的药物发现 AI 智能体
- 预测超导化合物并对照物理约束检查的材料科学系统
- 生成关于大气动态假设并对照历史数据验证的气候建模智能体
- 探索机制设计空间并在提议的系统中捕获逻辑不一致的经济理论模型
模式是明确的:任何满足以下条件的领域 (1) 文献庞大,(2) 验证可能,以及 (3) 解决方案空间太大而无法进行详尽的人类搜索,都适合 Aletheia 式方法。
11、令人不安的真理
Aletheia 有一个不应该被忽视的哲学维度。这个名字——ἀλήθεια——是故意选择的。在海德格尔的解释中,aletheia 是"不隐瞒",揭示以前隐藏的东西。
但 Aletheia 揭示的是不舒服的:数学真理本身可能比我们愿意承认的更机械。如果 AI 可以从文献中重新发现晦涩的方法,将它们应用于未解决的问题,并偶尔找到人类专家错过的解决方案,这说明了人类数学的"创造力"什么?
13 个 Erdős 解决方案不是幸运猜测。 它们是系统探索、跨庞大数学知识语料库的模式匹配和逻辑推理的结果——看起来越来越可计算的过程。
然而,187 次失败也很重要。它们提醒我们,数学真理具有抵抗压缩的纹理,一些见解需要当前 AI 缺乏的那种体现的、情境化的理解。机器可以找到人类没有尝试过的路径;它不能总是识别哪些路径值得尝试。
也许 Aletheia 揭示的最深刻的真理是关于协作本身。 未来既不属于孤独的人类天才,也不属于自主 AI,而是属于结合机器搜索与人类判断、计算规模与生物直觉、算法精度与创造性见解的混合系统。
真理就在那里。现在我们有了更好的搜索方法。
原文链接:Aletheia: The AI Agent That Just Rewrote the Rules of Scientific Discovery
汇智网翻译整理,转载请标明出处