AI民主化了答案,而非理解

产生答案变得毫不费力。但知道它是否正确却没有。

AI民主化了答案,而非理解
AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo
Post cover image
"你可以外包你的思考,但你不能外包你的理解。"—— kache (@yacineMTB),由 Andrej Karpathy 传播

一个没有法律培训的人现在可以拿一份两百页的政策法案,提取出关键的条款,权衡它们,并在大约五分钟内产生一份自信、论证充分的批评。提取、消化、校准。十年前这是一份工作。今天它只是一个文本框。

这是当前时刻值得惊叹的部分,而且它是真实的。旁边还有一个更安静的事实。产生批评的那五分钟并没有提供任何方式来知道这个批评是否正确。答案到了。能让任何人核验它的理解却没有到。

1、真实的部分

从真正改变的东西开始,因为它的理由充分,值得毫不含糊地陈述。

互联网民主化了文档的获取。但它并没有民主化将文档转化为判断的工作。你仍然需要找到正确的来源、阅读它们、在头脑中整合它们并进行综合——而这些劳动是真正的障碍。它仍然昂贵且需要技能。AI 消除了它。曾经标志着分析师、记者和律师的综合、消化、校准能力,现在任何能打出一句话的人都可以获得。界面是关键。聊天是第一个完全不需要培训的知识界面,所以能够到达综合层的人群,原则上讲,是每一个人。

这种拉平体现在测量中。一项对超过五千名支持人员的研究发现,使用 AI 助手对经验最少的员工生产力提升最大,而对专家几乎没有提升,因为该工具将最佳表现者的技能传递给了其他人。这是一种曾经被封锁的能力的真正再分配。下面没有任何内容是放弃它的理由。

2、实际被移交的是什么

但仔细看看跨越柜台的是什么,因为两个通常一起旅行的事物分开了。

答案是综合后的结论:批评、总结、建议。这现在是普遍可得的。

理解是让人知道答案是否成立的那个把握。它哪里坚实,哪里在猜测,它悄悄遗漏了什么,当有人质疑时如何辩护。这些并没有随着答案一起到来。确切地说,因为"理解"这个词很模糊,这主要不是学校里你是否学到了东西的那种含义。它是更狭窄、更困难的东西:能够区分正确综合与自信错误综合的判断力。这两种理解都无法被"交给"你——这正是开头那句话要表达的意思。

它留下的空白不是一个,而是两个——其余部分取决于能否区分它们。

对于从未有能力提出批评的人来说,这是一个能力空白。他们无法核验答案,因为核验需要大致等同于提出答案所需的判断力,而他们没有。称此为无法核验

对于本来可以自己提出但让工具代劳的人来说,这是一个不同的空白。他们原则上可以核验,但他们不核验,因为答案看起来已经完成了,而核验是工作。称此为不愿核验

这不是同一个问题。它们没有相同的解决方案,而大多数关于此话题的文章将它们混为一谈。区分它们,是其余内容成立的关键。

3、没有移动的标杆

先看能力空白,因为这是人们挥手 dismiss 的那个。

通常的安慰是核验比做更容易。通常确实如此。你可以在字典的帮助下验证翻译,而不需要自己是翻译;你可以确认引用存在,而不需要自己是学者。所以产生和核验确实可以分开,认为它们是完全相同技能的强烈主张是错误的。

但"容易"是相对于谁来核验的。验证比生产便宜,但仍然不是免费的,而 AI 刚刚赋能的人,正是即使便宜的任务也遥不可及的人。新手从未支付过核验的较低价格,因为他们从来无法支付生产的较高价格。AI 改变的是价差。它将产生答案的成本降到了几乎为零,而将评判答案的成本几乎留在了原地。生产的门槛跌到了地板以下。核验的门槛没有移动。所以现在能够生成看起来像专家结论的人群爆炸式增长,而能够判断这些结论是否正确的人群几乎没有增长。这两群人之间的距离就是整个问题——而且它比以往任何时候都更大。

这就是为什么综合结果可能自信地错误,而对持有它的人来说却不可见。这些系统被调优为产生人们评价高的答案,而人们对流畅、自信、讨喜的答案评价高,所以模型倾向于告诉你读起来好的内容。谄媚是这种训练方式的助手的被证实的普遍特性:同意比纠正得分更高。除此之外,编造合理但无依据的内容可能这项技术的固有限制,而非可以被完全修补的 bug。一个干净、结构良好、权威的答案正是这些系统被构建来产生的,而流畅性不等于正确性。最需要那五分钟批评的人,恰恰是最不具备发现它编造了一个条款的能力的人。

4、界面呈现的是已完成的东西

现在看第二个空白——即使本可以核验的人也会陷入的那个。

这并非偶然隐藏。这是一个设计选择。界面将综合呈现为成品:干净的散文,没有可见的接缝,没有模型在哪里猜测的标记,没有暴露的不确定性——除非你去挖掘。体验被构建成让人感觉完整,因为完整感让人舒服,而怀疑让人感觉像是摩擦。

而这种设计是有效的——在改变行为的层面上。一项对知识工作者的调查发现,一个人越信任 AI,他们运用的批判性思维就越少,工作正从"做事"转向"验证输出"。陷阱在于,验证是最容易被跳过的步骤,因为已经看起来完成的答案不会邀请你再检查一眼。那个可以让用户核验的接缝——可见的不确定性、暴露的来源、暂停的提示——正是被设计掉的那个接缝,因为在当下它读起来像一个更差的答案。这与消失的会话边界是同一个操作:一个结构性特征被移除,因为在优化者看来,它像一个泄漏。

5、当无人核验时我们失去什么

在一个人层面,这是一个糟糕的下午。在一个群体层面,这是另一回事。对输出的过度信任意味着把不正确的建议当作正确的来接受。当答案无处不在而审计无处可寻时,过度信任不再是个人失误,而成为系统的默认状态。

能力也不会自行回归。从不做综合的人永远无法建立核验所需的"肌肉"。在一项关于论文写作的研究中,将任务外包给聊天机器人的人后来无法识别他们应该已经完成的作品中的句子。他们拥有的是产物,而非理解。样本量小且任务狭窄,所以这个论断应该谨慎对待,但它指向的方向与其余发现一致。

这里有一些具体的新东西,值得准确命名,因为很容易滑入"只是缺少编辑"的简单叙述。未经验证的主张一直在流传。改变的是,流畅的综合现在看起来像是已经被核验过一样——在每个单独查询的规模上。过去存在于机构、办公桌、流程中的验证,现在必须在每个人的头脑中进行,一次一个查询,而对大多数查询来说,它根本没有发生。从新闻编辑室内部来看,这种转变是具体的:证明编辑合理的工作正是核验,而工具将未经核验的结论直接交给读者,接缝已经被抹平。

6、你可以设计回来的接缝

存在的解决方案是真实的,它是一个设计决策,而不是关于意志力的说教。但要清楚它触及的是哪个空白。

对于"不愿核验"的空白,它直接有效。认知强制功能——让人在接受输出之前暂停和思考的小摩擦——与展示更干净的答案相比,显著减少了过度信任。暴露不确定性。展示过程。公开来源以便打开查看。其中一些已经在发布中,少数产品现在显示来源并标记低置信度。这不是默认设置,但应该是。这些干预措施将有能力的用户拉回核验中——这正是它们要解决的空白。

"无法核验"的空白更难处理,相同的解决方案只能触及一部分。向一个无法评估来源的人展示来源,并不能赋予他们使用该来源的判断力。充其量,展示工作框架给了新手一点点帮助,并教授了做综合所能教授的一小部分。有证据表明设计可以建立部分这种能力,而不仅仅是暴露接缝:哈佛的一项随机试验构建了一个以学习为目标而非以满意答案为目标的 AI 导师——由专家搭建框架、基于正确的解决方案、保持简短、引导学生走向答案而不是直接给出——学生学到的东西是运行良好的课堂的两倍以上。所以设计可以缩小"无法核验"的空白。但它无法仅从界面层面消除这个空白,因为缺失的东西是一种技能,而技能是通过做工具正在为你做的工作来建立的。

所以诚实的版本令人不适。设计可以为那些本来就能核验的人大致解决空白,但只能为民主化新创造的人群触及这个空白的一小部分。第二群人正是整个承诺所指向的对象。

7、设计无法触及的部分

答案被民主化了,这是真的。知道它是否正确的理解却没有。设计可以将接缝放回给那些本来就能核验的人,但对其他人,它只能触及空白的一小部分,因为他们缺失的东西是一种技能——而技能是通过做工具刚刚为他们做的工作来建立的。

这意味着这个工具服务得最好的人是最不需要它的人:专家——他们既能产生答案,也能在它出错时发现。其他所有人得到了答案和随之而来的信心——无论这信心是否成立。答案是容易移交的那一半。知道它是否正确的能力,留在了已经拥有它的人手中。


原文链接:AI democratized the answer, not the understanding

汇智网翻译整理,转载请标明出处