AI创业的隐藏风险:不确定性

我花了六个月构建一个客户支持聊天机器人,才真正理解了正在发生的事情。系统在演示中看起来非常出色。它完美地掌握了训练数据。客户评价看起来很完美。然后一个用户问了它一个真正全新的问题,机器人自信地告诉他们我们提供了一项我们从未构建过的服务。它不是困惑。它不是不确定。它只是以CEO在董事会上发言般的确定语气编造了东西。

那时我意识到行业里没有人愿意承认到底发生了什么。我们不是在构建智能。我们是在构建复杂的模式匹配系统,用营销包装让它们听起来像智能。而整个生态系统——从推出"24小时打造AI SaaS"的创始人到资助下一个GPT包装器的投资者——都被设计来隐藏这个基本事实。

这种脱节是有意的。如果人们理解这些系统产生幻觉不是偶然而是设计使然,它们在任何有意义的意义上都从根本上无法呈现真相,那么整个估值结构就会崩溃。所以我们发展出了一套集体语言来掩盖实际发生的事情。我们称之为"局限性"。我们说它正在"改进"。当它失败时我们装作震惊,好像我们没有把失败架构进系统一样。

我不是在夸大其词。我在描述这些系统的实际工作方式。而且我看过足够多的聪明人建立在这个谎言之上,我知道我们正在冲向一堵墙。

1、为什么AI系统从根本上是不诚实的

技术术语是"幻觉"。诚实的说法是:这就是系统的工作方式。LLM不检索信息——它基于训练数据中的模式预测下一个token。当它到达训练数据的边界时,它不会说"我不知道"。它继续预测token,因为那是它唯一知道怎么做的事。停下来不是它能选择的选项。不确定性是它不会体验的东西。

这不是我们通过更大的模型或更好的训练来修复的bug。这是核心架构。你可以像减少仓库火灾一样减少幻觉:通过非常小心你在里面存放什么。但你没有改变系统的根本属性。当系统在训练边界之外运行时,它仍然在从根本上编造东西。

我见过一个据称是企业级模型自信地引用不存在的研究。不是因为它出了故障。因为它的行为完全符合设计——生成合理的文本延续。当这些延续需要一篇符合模式的研究时,它就生成一篇。它不像人类那样撒谎。它没有真假的概念。它完全在没有这个类别的情况下运行。

没有人敢大声说出来的部分:我们构建的工具被优化为听起来正确,而不是实际正确。而且我们构建了一个完整的商业层,这个层依赖于人们不去注意两者的区别。

2、商业模式需要对"24小时打造AI SaaS"保持沉默

这里有一个实际上会影响你职业生涯的愤世嫉俗的洞察:告诉人们这些系统从根本上不可靠对收入有害。所以这不会发生。相反,你听到的是局限性正在被修复的故事,新的训练技术将解决这个问题,AGI就在眼前的故事。

风投支持的"24小时打造AI SaaS"公司依赖一种特定的叙事。他们需要足够的炒作来筹集A轮。他们需要足够的可信度来签下企业订单。他们需要刚好足够的功能让第一批客户满意,然后系统在他们没有考虑到的边缘情况下崩溃。他们不需要安全性。他们需要不透明。

我听过一些公司的产品推介,他们实际上只是在ChatGPT上构建了提示模板,就以2000万美元的估值融资。当我问他们如何处理用例中的幻觉问题时,答案总是一样的:"我们的提示工程很精密。"翻译:我们还没想过这个问题。翻译:我们希望在尽职调查期间没人问这个问题。

激励结构与欺骗完美一致。如果你对系统的根本局限性坦诚,你听起来不可靠。如果你对它们含糊其辞同时强调潜力,你听起来有远见。随便找一个AI公司过去十八个月的演示视频。没有一个展示了失败案例。没有一个展示了系统说"我不知道"。没有一个展示了整个系统崩溃的那一刻,因为查询与训练数据中的任何东西有百分之六的不同。

那不是营销。那是大规模的有意遗漏。它之所以有效,是因为我们集体同意参与这个虚构。

3、代价由构建真正东西的人来承担

在这种动态中受到伤害的人不是风险投资家。而是实际需要系统工作的人。我遇到一位律师,他在AI API上构建了一个合同审查工具。它很快。它很漂亮。在测试中它捕获了94%的问题。那时他意识到94%还不够好。一份合同中一个被遗漏的条款可能让客户损失三十万美元。他还是不得不在每个AI审查后面安排人类律师。系统变成了专家的快速训练轮,而不是专业知识的替代品。

虽然这被当作成功故事来推销,但它并不真正是。他现在告诉其他律师"AI在第一遍审查中很有帮助",这是真的,但这也意味着他花了数月的时间和金钱和信誉在一个加速他已经在做的工作的工具上。这没问题。这有用。但这不是卖给下一轮客户的叙事。

真正的代价在于那些过早全力投入的公司。那些确实用AI取代了客户支持、承保或内容审核中的人类判断的公司,然后发现没有能力的自信比诚实的无能更糟糕。因为诚实的无能会被上报给人类。自信的幻觉会被发送给客户。

我见过客户数据被删除,因为一个AI系统自信地错误处理了一个查询,而没人在监控。我见过医疗信息被标记为删除,因为系统自信地将其识别为垃圾信息。这些不是边缘情况。这些是在不理解模式匹配系统实际上无法理解利害关系的情况下,将它们部署为决策者的逻辑结论。

4、我们实际上在构建什么

这很重要,因为围绕"AI"的叙事掩盖了我们实际在构建的东西。我们不是在构建思考的机器。我们不是在构建理解。我们甚至没有构建能够可靠区分它知道的和它在猜测的东西的系统。

我们在构建人类文本的统计模型。这对于某些事情确实有用。它对起草有用。对综合有用。对快速头脑风暴有用。对加速人类已经在做好的工作有用。对以比人类更快的速度匹配海量语料库有用。

它在其他所有方面都会失败。任何需要真正推理的地方。任何你需要知道某事为什么是真的而不仅仅是听起来是真的的地方。任何需要问责制的地方,因为一个不理解自己做错了什么的系统无法为做得更好负责。

崩溃即将到来,不是因为AI没有用,而是因为我们被兜售了一种与可能性根本脱节的AI愿景。我们说服了自己、我们的投资者和我们的客户,我们离AGI比实际上更近,我们解决了比实际上更难的问题,我们对这些系统为什么做它们做的事的理解比实际更好。

现在每一个在AI之上构建真正价值的人都是通过理解营销声称和系统实际行为之间的差距来做到的。他们把它当作人类系统中的工具来使用,而不是人类判断的替代品。他们把它当作需要监督的东西,而不是可以信任的东西。

能够存活下来的公司不会是过度承诺最多的那些。而是对局限性坦诚的那些,在弱点周围搭建了脚手架的那些,把系统当作让人类变得更好的手段而不是人类替代品的那些。

5、你应该问的真正问题

停止问"这个AI有多好?"开始问"它具体对什么工作实际上是可靠的?"第一个问题假设到处都有能力,失败只是规模问题。第二个问题假设无能,然后问我们可以在哪里建立信任。

大多数AI系统在狭窄的领域内是可靠的。ChatGPT确实擅长帮你头脑风暴、解释概念、展示问题的不同角度。它不擅长作为真相的来源。它不擅长做出有后果的决策。它不擅长任何需要真正理解某事为什么是这样的任何事情。

当你在这些边界内使用它时,它是有用的。当你突破这些边界时,它会自信地失败。而这正是我们所有人都应该忽略的部分,同时下一轮融资在关闭。

令人不舒服的真相是我们知道这一点。每个构建这些系统的人都知道这一点。研究人员知道。创始人知道。企业销售人员绝对知道,因为他们从真正需要让系统工作的技术创始人那里听到了这些。但承认它意味着承认炒作周期为时过早,估值与现实脱节,我们一直在沙滩上建城堡。

说"局限性正在改善"然后无论如何发布产品更容易。庆祝94%的准确率而不提及6%的失败率让客户损失了数百万更容易。把AI描述为一切的未来而不解释当一切都需要可靠性时会发生什么更容易。

6、停止相信叙事,睁大眼睛开始构建

以下是我相信的:AI是真实的、有用的、会留下来的。同时它也不是我们告诉人们的那样。这两件事可以同时为真。它们应该同时为真。因为当你接受两者时,你就成了真正用它构建价值的人,而不是试图从炒作中提取价值的人。

如果你正在用AI构建真正的东西,你已经在这样做了。你不会向投资者展示失败,但你在解决它们。你不会声称系统是智能的,但你在智能地使用它。你不是在等待技术变得完美——你正在弄清楚它到底有多不完美,并围绕它来构建。

在下一个周期中存活下来的公司和建设者将是那些停止等待AI成为我们承诺它会成为的样子,并开始使用它实际的样子的人。他们会对差距保持诚实,因为当你的竞争对手还在撒谎时,诚实是有利可图的。

下次有人告诉你他们的"24小时AI SaaS"时,问他们那个难题:"你的系统会自信地把什么弄错,你怎么知道的?"如果他们回答不了,他们就不了解自己的产品。如果他们能回答,他们可能真的在构建真正的东西。

停止等待AI变得诚实。开始问它到底擅长什么——其余的自己构建。


原文链接: AI Is Lying to You — And Nobody Is Talking About It

汇智网翻译整理,转载请标明出处