使用 Fable 5:我的真实体验
Claude Fable 代表了 AI 的又一次重大飞跃
AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo
我有幸获得了即将向公众发布的第一个 Mythos 级别 AI 模型——Claude 5 Fable 的早期访问权限。关于 Mythos 的大部分讨论集中在其对软件安全的影响上,但我除了安全领域之外的所有方面都进行了测试(Fable 的防护措施基本上完全阻止了它在网络安全方面的使用)。我的结论是,它代表了我使用过的每个模型的一次真正飞跃,也许更重要的是,它表明我们与 AI 的关系正在发生根本性的变化。
首先,Fable 有多好?在我进行的一个又一个实验中,它以相当大的优势超越了基本上我使用过的所有其他公开模型。它在许多问题上都表现出色,并产生了一些令人震惊的结果——它可以连续工作长达 12 个小时来执行多页规范。我很快会带你了解几个更复杂、更严肃的用例,但你可以在每个任务上看到全面的普遍改进。在文章中传达这一点的问题在于,许多最令人印象深刻的结果只会对一小部分读者有意义。例如,它根据一个提示和一条反馈,制作了我所见过的最精密的学术社会科学论文。它还创作了一首10 页的史诗级押韵诗,内容是关于理发的故事,其中每个单词都以字母 s 开头。
因此,作为一个更易于理解和有趣的例子,我还让它创建了一些你可以尝试的游戏。所有这些都只是 Claude Code 中的一个初始提示,Fable 必须将我模糊的提示转化为可用的东西,随后再加上几个带有轻微鼓励("让它更好")或反馈的额外提示。这些特别令人印象深刻的原因在于 Claude 无法生成图像,所以每一件艺术品或 3D 对象都是仅凭数学创建的,没有使用任何外部资源。你可以尝试其中的任何一个:一个关于抛硬币的游戏(提示:"Balatro,但用于抛硬币游戏"),相当有趣;一个贪吃蛇游戏,蛇是有自我意识的,会发生疯狂的事情;或者一个关于深入地下看看那里有什么的游戏。
所以输出令人印象深刻。但是,特别是当我转向更严肃的项目时,我经常感觉使用这个工具介于愉悦和不安之间。愉悦是因为我只是要求了某件事,它就发生了。不安也是因为我只是要求了某件事,它就发生了。
1、地图与方法
要理解为什么,了解 Fable 完成工作的方式会有所帮助。为此,我想转向一个我在许多以前的 AI 模型上测试过的例子:构建等时线地图。这是一种显示你在给定时间内可以行进的距离的地图,第一张于 1881 年创建,展示了从伦敦出发的旅行时间。

以前的模型在做这种地图时没有一个是哪怕勉强有用的,因为它涉及研究数千个潜在的旅行距离,以及大量的判断和决策。我决定使用 Claude Code 在 Fable 上尝试,提示如下:
我想要你构建一个经过充分研究的、美观的等时线地图,让我可以选择不同的城市并看到基于真实数据的真实等时线。我希望设计是独特的。你应该考虑机场(以及往返机场的旅行时间)、火车、步行、驾车。数据不需要是实时的,但应该基于你的研究和数据是真实的。你可以从几个城市开始,但越通用越好,这应该是一个全新的项目。 然后它建议以原始地图的风格来做这件事。我同意了,它就开始工作了。
值得花点时间看看 AI 自己经历数小时构建过程的记录,因为你可以看到一些不寻常的事情。首先,AI 启动了多个其他 AI(我相信大部分是较便宜的 Claude Sonnet)来帮助它进行旅行时间的研究,最终检索了超过 2,200 个具体航班,从 TGV 到新干线的列车时刻表,以及来自多篇学术论文的各国公路速度。当这些代理在运行时,它开始编码。然后它又启动了更多的代理和测试来验证其代码,同时记录关于其进展的笔记。

结果是一个功能完备、令人惊叹的精密地图,看起来很像 1881 年的原版,但这并不意味着它是完美的。我注意到很多偏远地点(如格陵兰岛)只包含旅行时间的估算值,而不是确切数字,所以我告诉 Fable 修复它,包括指示:实际获取到偏远机场和地点的旅行时间。 这一次,AI 启动了一个工作流程,对抗性的代理组进行研究并相互测试结果。它弄清楚了船多长时间开往太平洋上的皮特凯恩岛,以及如何从渥太华到达格莱斯峡湾。它在很短的时间内使用了大量的 token(稍后会有更多关于这方面的内容)。

结果令人印象深刻。我在我感兴趣的方向上又推动了几次(包括要求其他可视化方法等)。我建议花几分钟时间点击浏览结果,你可以在图表底部阅读其方法和数据来源。
除非你真的喜欢旅行和地图,否则这可能不是一个对你有用的项目,但它代表了 AI 解决一个涉及研究、数学、视觉开发、审美、判断、复杂编码等多方面难题的情况。而且,令人不安的部分是我做的有多少之少。我给出了一个非常有雄心的指令,AI 遵循了它。我给出了一些次要的反馈,AI 就解决了问题。我的角色极其有限。
重要的是,不仅我在相对于模型所做的工作量上是有限的,我在控制模型做事方式、模型选择特定方法的原因、甚至其结果深入程度的控制力上也是有限的。AI 决策的细节不会展示给我,而且过程太长,甚至不值得跟踪。这个地图需要 AI 对数百个小选择做出判断,它就这样做出了这些选择,而我既不理解这些选择,也没有机会参与其中。在很多方面,这是奇迹般的(我总可以在最后要求修改),但另一方面,它将 AI 变成了终极黑箱。
2、使用 Mythos 级别模型
我从 Fable 获得的最有雄心的项目需要更多解释。我做了很多研究,人类产生混乱的答案,进行任何分析都需要正确分类这些答案:一个想法有多创新?人们为什么喜欢这本书?为了弄清楚这个问题,我们使用人类研究人员对一条信息做出判断,并统计比较他们的答案以确定我们是否可以信任这些数据。最近的大量研究表明 AI 可能能够完成这项重要工作,但校准 AI 和人类判断一直困难且昂贵。所以我要求 Fable 解决这个问题,首先生成了一份复杂的 19 页设计文档,然后执行了它。
它工作了九个半小时。

结果是一个极其精密的软件,AI 称之为 Concord,它可以接收多个数据集,校准人类和 AI 的回答,然后对结果进行复杂的数据分析。同样,它并不完美。作为专家,我能够发现一些错误和遗漏(有些是我要求的设计造成的),我让 AI 进行了纠正。但这个项目以及许多其他项目的交付范围超过了之前我见过的任何东西。在这种情况下,它是研究人员多年来需要的软件,但一直不盈利所以没有人创建。你现在可以直接使用或修改这里的代码。我确信它并不完美(我只花了一个小时与结果一起工作),但软件工程师会解决我无法快速找到的剩余潜在 bug(这也是为什么我们在未来可能需要更多而非更少程序员的原因之一,以帮助应对软件新用途的爆发式增长)。
这种力量与奇异性和局限性并存。在这些限制中包括它的 token 使用量。Fable 的价格是 Opus 的两倍,它以极快的速度消耗 token,这意味着关于生产环境成本的答案可能是"很多",尽管它巧妙地委托给更便宜的模型可能会大大降低实际价格。Fable 的防护措施也会在出现任何安全问题的最轻微迹象时触发,默认回退到功能较弱的 Claude 4.8 Opus,而且这种情况发生得太多了。而且参差不齐的前沿仍然存在。例如,AI 仍然以同样奇怪的风格写作(事实上,Fable 产生的软件带有 Claude 式表达痕迹;它的进度报告也是如此,那些"承载重量"和"赢得答案"的说法)。但更深层的奇异之处在于我需要做的事情有多少之少,以及在它完成工作时我能看到的有多少之少。
去年我把这称为与巫师一起工作:你念出咒语,某事就发生了。有了 Fable,咒语变得足够强大,以至于我不再确定我是巫师了。我更像一个赞助人。我描述我想要什么,我为此付费,我评判结果。魔法发生在某个我无法观看的地方,在数百个我从未有机会投票的小选择中。工作已经从过程转向结果。我不再掌舵;我委托创作。
这种情况可能是暂时的,只是接口尚未跟上的产物,我们将获得更好的窗口来了解这些模型在做什么,以及更好的方法来在过程中引导它们。但同样可能的是相反的情况:模型越强大,人类有意义地做的事情就越少,而黑箱就是力量的代价。我怀疑后者更有可能是真实的方向。所有这些都不是显而易见意义上的失去控制。我仍然可以引导 Fable,它极其出色地遵循指令:指令越有雄心,结果就越好。但引导不再等同于做。我向模型下达简报,它启动自己的代理来研究、写作并相互检查工作,返回来的东西是完成的。赞助人委托单个艺术家创作。Fable 更像一整个工作室,我是那个从未踏入车间就签署最终作品的客户。
原文链接: What it feels like to work with Mythos
汇智网翻译整理,转载请标明出处