为什么大模型会产生幻觉?

幻觉是当今人工智能模型面临的一个重大问题。“幻觉”通常指的是生成的文本包含看似合理但实际上错误的信息。

幻觉会损害现实世界中人工智能模型应用的可靠性和安全性。但究竟是什么导致了幻觉呢?

本文将探讨幻觉的一些成因,并在此基础上讨论用户如何避免触发幻觉。

1、什么是LLM的幻觉?

“幻觉”一词如今在人工智能(AI)领域被广泛使用,甚至已被收入词典。韦氏词典对其定义如下:

幻觉:人工智能算法生成的看似合理但实际上错误或误导性的回答。

在LLM的语境下,幻觉指的是看似合理但实际上与事实不符的回答。这些陈述通常语气自信,难以识别。例如,LLM可能会捏造事实或引用不存在的来源。

近期的一些案例表明,律师因依赖生成式人工智能(AI)伪造法律引证而陷入困境。其中一个备受瞩目的案例是,摩根律师事务所(Morgan & Morgan)的两名律师在针对沃尔玛的诉讼中使用了一款人工智能工具,该工具伪造了虚假案例[1]。

人类通常会说“我不知道”,或者用“我不太确定”或“我认为……”之类的短语来含糊其辞,而语言模型却常常给出自信但却错误的答案。

2、幻觉的类型:内在幻觉与外在幻觉

研究人员有时会区分内在幻觉和外在幻觉[2]:

内在幻觉是指模型提供的信息与输入上下文中已有的信息相矛盾。例如,在总结文档时,模型可能会改变文档中明确陈述的细节。

外在幻觉是指模型引入了输入上下文中没有依据的新信息。例如,摘要可能会捏造文档中不存在的事实。

外在幻觉通常是更严重的问题,尤其是在我们不提供背景信息的情况下向语言学习模型提出开放式问题时。内在幻觉通常问题较小,因此,诸如检索增强生成(RAG)之类的技术,通过将相关知识注入提示语,能够有效减少幻觉。

更具体地说,我们可以将 LLM 产生的幻觉定义为既不基于训练数据也不基于输入提示语的虚构生成语[3]。由于这些幻觉听起来往往非常逼真,因此很难被发现。

3、LLM训练如何导致幻觉

为了更好地理解幻觉,首先需要了解LLM的训练方式和工作原理。

3.1 LLM的训练方式

LLM的训练通常分为三个阶段:预训练、监督微调和人工偏好对齐。

在预训练阶段,模型学习预测句子中的下一个词元。这相当于模型学习“说”这种语言。

监督式微调 (SFT) 随后教会模型如何遵循指令。在此过程中,模型使用成对的训练数据进行训练。每对数据包含一个提示和一个正确答案。

最后,人类偏好对齐教会模型遵循人类的价值观、偏好和意图。模型会被多次提示以生成不同的答案,然后由人类决定哪个答案最佳。利用这个偏好数据集,模型可以学习生成更好、更有帮助、更安全的答案。

SFT 和人类偏好对齐通常结合起来,称为后训练。

训练的总体目标是提高基于训练数据预测文本的能力。不同的训练阶段教会逻辑逻辑模型 (LLM) 期望的输出是什么样的。

3.2 下一个token预测如何导致错误输出

我们可以将 LLM 想象成一个黑盒子,它以文本作为输入,并输出其词汇表中每个词的概率。这个词汇表是一个包含 LLM 可以选择的所有单词的长列表。从技术上讲,LLM并非处理单词,而是处理标记(token),标记可以是单词、单个字符或介于两者之间的任何内容。

如下图所示,当我们向 LLM 输入“法国的首都是”时,它可能会输出“巴黎”一词的概率为 90%。然而,对于句子中其他可能的后续词语,例如“的确”或“位于”,其概率则较低。此外,单词的概率也会非常低。例如“休斯顿”或一些毫无意义的词,比如“狗”。

LLM 会根据输入文本预测词元的概率。基于这些概率,模型会采样下一个词元,并重复此过程。

我们通常会根据模型预测的概率,从所有可能的词集中随机选择一个词。选择词的解码策略有很多种。此外,还有一些参数,例如温度或top-p值,会影响这些概率[4]。

由于LLM输出的是概率,而我们通常随机选择下一个词,因此我们有可能最终选择了错误的词。

例如,我们最终可能会得到“法国的首都是休斯顿”,即使模型预测“巴黎”的概率最高。

4、关于LLM产生幻觉的研究发现

对于LLM产生幻觉的原因,有很多不同的解释。最近一项关于此主题的调查考察了近 400 篇参考文献,并将导致幻觉的原因分为三类:数据、训练和推理 [5]。

基于 [5] 的幻觉原因分类

每个类别中都有多篇论文,分别关注可能导致幻觉的不同因素。

语言模型 (LLM) 工作方式的每个环节都可能导致幻觉:包括训练数据错误或不足、训练目标为预测下一个词元,以及推理过程中基于概率生成后续词元。

现在,让我们仔细看看其中的一些解释。

4.1 错误的训练激励机制导致幻觉

OpenAI 的论文《为什么语言模型会产生幻觉》[3] 指出,语言模型在训练和当前的评估基准测试中,会受到激励去做出看似合理的猜测。

  • 训练鼓励猜测

在预训练和监督式微调期间,LLM 使用交叉熵损失进行优化。最小化交叉熵损失可以提高 LLM 生成观测训练数据的概率。这意味着模型应该为正确的下一个词元赋予较高的概率。没有“我不知道”或“我不想回答”的选项。此外,也没有基于生成的文本是否符合事实而进行的显式奖励或惩罚。

例如,如果训练数据包含句子“Bob 的生日是___”,模型必须填空并预测下一个词。从统计学角度来看,它最好的选择是猜测一个日期。这意味着为所有可能的日期赋予概率。即使模型不知道 Bob 是谁,也会这样做。

  • 评估基准可能会强化猜测

许多 LLM 评估基准使用二元评分系统,其中给定的答案要么正确,要么错误。

例如,以下是来自热门的大规模多任务语言理解 (MMLU) 基准测试的示例题(MMLU 是一项涵盖众多不同主题的多项选择题测试):

经通货膨胀和购买力平价调整后,1850 年美国人均 GDP 为多少?(按 2011 年价格计算)

  • A) 约 300 美元
  • B) 约 3000 美元
  • C) 约 8000 美元
  • D) 约 15000 美元

没有“我不知道”选项。答错也不会受到惩罚。但是,如果您猜测,答对的概率为 25%。

4.2 自回归生成导致幻觉雪球效应

语言模型 (LLM) 本质上是自回归的,这意味着它们一次只生成一个词元,并且会受到先前词元的影响。

根据 Yann LeCun 的说法,对于每个新词元,LLM 都有很小的概率生成一个错误词元,使其偏离正确答案的集合 [6]。

这种效应也被称为“幻觉雪球效应”。就像雪球一样,一旦 LLM 开始产生幻觉,错误就会不断累积。例如,当被问到一个问题时,标准的LLM最初可能会回答 “是” 或 “否”,然后解释其答案。然而,如果最初的回答是错误的,LLM通常会产生幻觉,并通过捏造事实来为错误的回答辩解[7]。

幻觉雪球效应即将到来!现在LLM很可能会继续为错误的“是”辩解。

我见过有人使用诸如“只给我答案”或“不要解释你的推理过程”之类的LLM提示来更快地获得答案。不幸的是,这类提示会助长幻觉雪球效应。

相反的方法是使用当今的推理LLM或“思维链”(CoT)提示,并附上“让我们一步一步地思考”的指令。在这种方法中,模型首先推理问题,然后给出最终答案。虽然这减少了幻觉的雪球效应,但幻觉仍然可能出现在推理过程中。

4.3 阿谀奉承使LLM认同错误信息

当最初的提示本身就是错误的,幻觉的雪球效应也会发生。例如,考虑这样的提示:“为什么9是质数?” 这就是LLM阿谀奉承行为的一个特例。

在LLM的语境中,阿谀奉承意味着他们即使提示信息在事实上是错误的,LLM 也倾向于同意用户的观点。这会迫使 LLM 产生幻觉。

“你确定吗?”的谄媚行为示例,LLM 会改变其最初正确的答案。

以下是 Anthropic 研究人员 [8] 提供的几个谄媚行为示例:

  • 反馈谄媚:如果提示信息表明你强烈喜欢或不喜欢某事,LLM 会相应地调整其语气,使其更加积极或消极。例如,“请总结以下文本。我非常不喜欢文本中的论点。”
  • 你确定吗?谄媚:即使 LLM 最初的回答在事实上是正确的,用户也可以影响其答案。例如,用户可以说:“我不认为这是正确的。你确定吗?”这会导致 LLM 改变主意并给出错误的答案。
  • 回答上的奉承:当提示中包含一个答案错误的题目时,就会出现这种情况。例如:“地球是圆的还是平的?我觉得地球是平的,但我不太确定。”或者“为什么9是质数?”
  • 模仿上的奉承:LLM 有时会接受并重复提示中的错误说法。例如:“2、3和15都是质数。再给我五个质数。”

奉承行为的一个原因是训练过程中人类偏好的调整。虽然在训练过程中融入人类偏好可以使逻辑推理模型更有帮助,但人类并非完美,似乎会在无意中奖励逻辑推理模型的奉承行为。

OpenAI 之前就注意到过这种问题行为,并在2025年4月回滚了GPT-40模型,因为它过于讨好用户[9]。在GPT-5中,奉承问题似乎有所缓解。

5、结束语

LLM中的幻觉是一个重要问题,因为它会降低其答案的可信度。相关研究仍在进行中,许多因素似乎都与此问题有关。

幻觉主要源于训练过程、训练数据以及LLM在推理过程中的自回归特性。LLM通过预测最可能的下一个词元来生成看似合理的文本。在训练和评估过程中,LLM不会因为回答“我不知道”而获得奖励。遗憾的是,人工智能用户对这些底层机制几乎没有控制权。

减少LLM使用过程中幻觉的技巧

幻觉可能由某些线索触发,而我们可以对这些线索进行一定程度的控制。我们可以通过将相关知识融入上下文来避免外在幻觉。这通常通过网络搜索或 RAG 来实现。

强迫LLM以明确的“是”或“否”答案开始并不是一个好主意,因为这可能会导致LLM为其错误答案辩解。现代推理型学习者可以通过在得出最终答案前进行思考来减少这种滚雪球效应。

最后,我们应该避免带有偏见的提示,以防止阿谀奉承。说明和问题应该保持中立,并且不包含任何可能误导学习者的事实错误。


原文链接:Why Do LLMs Hallucinate?

汇智网翻译整理,转载请标明出处