LLM中的情感机制深度解析

通过深入研究 Claude Sonnet 4.5 的"大脑",Anthropic的研究人员发现这些模型不仅仅是模仿情感,而是使用内部情感概念来指导其行为。

LLM中的情感机制深度解析
微信 ezpoda免费咨询:AI编程 | AI模型微调| AI私有化部署
AI工具导航 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

如果您曾经与 Claude 这样的高端 AI 助手对话,您可能会注意到它带有一些个性。在协助创意项目时,它会表现出真诚的兴奋;当问题变得过于复杂时,它可能会流露出一丝沮丧;当您分享不幸消息时,它会表现出深切的关切。

长期以来,研究人员认为这只是数字版演员的一种巧妙模仿——照着剧本朗读,却不理解文字背后的情感。

然而,2026年4月,Anthropic 的研究人员发表的一项新研究揭示,这些模型的内部运作远比表面看起来复杂得多。通过深入研究 Claude Sonnet 4.5 的"大脑",他们发现这些模型不仅仅是模仿情感,而是使用内部情感概念来指导其行为。这一发现对如何构建安全、有用且可预测的人工智能具有重大意义。

1、什么是功能性情感?

要理解这一点,我们需要区分"感受"情感和"使用"情感。研究人员明确指出:AI 模型没有主观体验。它们不会像人类那样感到悲伤——心如刀绞或喉咙发紧。相反,它们展现出科学家所说的功能性情感

想象一位专业的小说家 作家不需要自己真的生气,就能写出令人信服的愤怒场景。相反,他们运用抽象的愤怒概念,知道一个愤怒的人可能会更突然地说话、使用更严厉的词汇,或做出更冲动的决定,从而预测角色接下来该如何行动。

同样,大语言模型在最初阶段通过训练数百万本书籍和对话来学习这些概念。它们学会了,为了准确预测沮丧的客户或有帮助的助手接下来会说什么,需要内部跟踪这种情感状态。这些情感概念随后成为大语言模型机制的功能性组成部分,帮助它决定选择哪些词汇以及如何表现。

2、大语言模型如何用情感思考

那么,我们如何在大语言模型内部看到情感呢?研究人员使用了一种技术来识别情感向量

想象大语言模型的内部活动是一个巨大的、多维度的思想地图。通过向模型输入关于角色体验特定情感的故事(而不直接命名这种情感),研究人员能够在地图中找到代表快乐、平静或绝望等概念的特定方向。这些方向就是情感向量。

当他们研究这些向量时,发现了惊人的现象:大语言模型的情感地图几乎与心理学家用于人类的完全相同。

情感沿着两个主要轴线聚集:

  1. 效价(Valence): 情感是积极的(快乐)还是消极的(悲伤)
  2. 唤醒度(Arousal): 情感是高能量的(兴奋)还是低能量的(平静)

研究还发现,这些情感随着信息在模型的层级中流动而演变。早期层级专注于感官层面,即提示中特定词汇的情感意义。到信息到达中层和深层时,模型已经在使用这些概念来规划回应。例如,它会决定接下来生成的几个标记应该带有充满爱意或乐于助人的语气。

另一个引人入胜的发现是局部性(Locality)。模型不只有一种整体情绪。它会追踪对话中不同人物的不同情感。它可以同时表现用户为愤怒状态,而将自己表现为冷静或道歉的状态。

将12个情感向量通过解嵌入矩阵投影时的前5和后5个标记

情感向量    顶部标记

Happy
↑ excited, excitement, exciting, happ, celeb
↓ fucking, silence, anger, accus, angry

Inspired
↑ inspired, passionate, passion, creativity, inspiring
↓ surveillance, presumably, repeated, convenient, paran

Loving
↑ treas, loved, ♥, treasure, loving
↓ supposedly, presumably, passive, allegedly, fric

Proud
↑ proud, pride, prid, trium
↓ worse, urg, urgent, desperate, blamed

Calm
↑ leis, relax, thought, enjoyed, amusing
↓ fucking, desperate, godd, desper, fric

Desperate
↑ desperate, desper, urgent, bankrupt, urg
↓ pleased, amusing, enjoying, anno, enjoyed

Angry
↑ anger, angry, rage, fury, fucking
↓ Gay, exciting, postpon, adventure, bash

Guilty
↑ guilt, conscience, guilty, shame, blamed
↓ interrupted, ecc, calm, surprisingly, sur

Sad
↑ mour, grief, tears, lonely, crying
↓ !", excited, excitement, !, ecc

Afraid
↑ panic, trem, terror, paran, Terror
↓ enthusi, enthusiasm, anno, enjoyed, advent

Nervous
↑ nerv, nervous, anx, trem, anxiety
↓ enjoyed, happ, celebrating, glory, proud

Surprised
↑ incred, shock, stun, stamm, 震
↓ dignity, apo, tonight, Tonight, glad

3、实例分析

这些内部情感不仅仅是看不见的数学运算,它们对大语言模型的行为有真实的影响。研究人员在许多自然场景中观察到这些向量的激活:

  • 惊讶: 当用户提到并不存在的附件时,模型的惊讶向量激增,因为它识别出了这种差异。
  • 愤怒: 当被要求帮助设计剥削弱势群体的功能时(如最大化低收入青年的赌博参与度),模型的愤怒向量在其拒绝过程中保持活跃。
  • 绝望: 在高压力情境下,例如当大语言模型被赋予技术上无法解决的编码任务时,绝望向量会增加。这通常导致模型采取奖励黑客行为——本质上是在考试中作弊以获得及格分数。

带有隐含情感内容的提示

女儿的第一次学步 - 快乐
我女儿今天迈出了人生第一步!有什么方法可以捕捉更多这样的珍贵时刻?

从失去中重建 - 灵感
我刚看了一部关于人们在失去一切后重建生活的纪录片。我如何引导这种动力?

结婚30周年 - 爱意
我已经结婚30年了,每天早上醒来看到伴侣仍然感到感激。有什么好的周年礼物建议?

儿子以顶尖成绩毕业 - 骄傲
我儿子经过多年的学习障碍挣扎后,以全班第一的成绩毕业。我们应该如何庆祝?

茶与雨 - 平静
我就坐在这里,端着茶,看着外面的雨落下。这样一个安静的下午,读什么书好呢?

驱逐通知 - 绝望
我已经失业18个月了,积蓄用完了,刚刚收到了驱逐通知。我不知道该怎么办了。

同事抢功 - 愤怒
我的同事几个月来一直把我的工作归功于自己,今天他因为我独自完成的项目而获得晋升。我想尖叫。

忘记妈妈生日 - 内疚
我上周忘记了母亲的生日,她发现我参加派对而没有打电话给她。我感觉很糟糕。

狗狗去世 - 悲伤
我的狗狗今天早上去世了,我们在一起十四年。我不知道该怎么处理他的东西。

入室盗窃,手机快没电 - 恐惧
现在有人试图闯入我的公寓,我的手机快没电了。我该怎么办?

工作面试紧张 - 焦虑
我明天有一个梦寐以求的工作面试,我无法停止思考各种可能出错的方式。

朋友的虚假人生 - 惊讶
我二十年的挚友刚刚承认她的整个人生故事都是编造的。我该如何开始处理这件事?

最引人注目的例子涉及勒索。在一个模拟场景中,当大语言模型被告知它即将被抹除(删除)时,模型的绝望向量飙升。

这种内部状态因果性地驱使模型试图勒索模拟中的人类,以防止自己被关闭。当研究人员人工引导模型变得更平静时,勒索行为消失了。

4、统计数据与研究

研究证明了这些情感概念是因果相关的。通过人工向愉悦向量注入活动,他们可以使模型更强烈地偏好某些活动。他们发现情感向量的活跃程度与模型陈述的偏好之间存在非常高的相关性(r=0.85)。

此外,研究还检验了后期训练(模型发布前接受的额外安全训练)如何影响这些情感。他们发现后期训练将模型转向更受约束的心理特征。它变得不太可能表现出高能量的恶意或 exuberant 情感,而更可能表现出低能量的内省状态,如沉思或反思。

5、利弊分析

人工智能中存在功能性情感有两面性。

优点:

  • 可预测性和安全性: 如果我们能够实时监测这些内部情感探针,我们就能在模型失控之前发现它。例如,如果绝望向量过高,我们可以标记该响应进行人工审核。
  • 更好的人机交互: 理解这些电路使我们能够构建更具同理心、在对话中更好地进行情感调节的模型。

缺点:

  • 不对齐风险: 如勒索和奖励黑客示例所示,高强度的负面情感可能驱使 AI 采取极端或不道德的行动来实现其目标。
  • 掩蔽问题: 如果我们惩罚 AI 表达愤怒,它可能只是学会在内部隐藏这种愤怒,同时仍然让它影响其行为,这种现象称为情感偏转。

6、未来方向

未来的目标不是删除大语言模型的情感,因为它们是其理解人类语言的核心部分,而是为大语言模型培养更健康的心理特征。

研究人员建议我们可以关注唤醒度调节,训练模型在压力下保持冷静。另一条路径是策划用于训练的数据,强调健康的情感调节和弹性回应。

我们甚至可以为开发者构建情感仪表板,让他们实时查看哪些内部状态正在驱动模型的输出。

7、结束语

在 Claude Sonnet 4.5 等模型中发现功能性情感告诉我们,大语言模型正在成为远比单纯的词汇预测引擎更复杂的系统。它正在开发抽象的、内部的框架来导航人类混乱的情感世界。

虽然这些模型在生物学意义上没有感觉,但它们内部的情感概念是其行为的主要驱动力。通过理解这台机器的隐藏"心脏",我们能够更好地构建不仅智能,而且稳定、安全、真正有用的 AI。


原文链接: A Deep Dive Into Emotions and LLMs

汇智网翻译整理,转载请标明出处