GPT-4 只是一个巨大的马尔可夫链
在所有关于“涌现智能”、“零样本推理”和“综合思维”的讨论背后,隐藏着一个基本事实。

“所有模型都是错的,但有些是马尔可夫链。”—— Swarnendu Bhattacharya
GPT-4 可能是有史以来最令人印象深刻的统计模型。但如果我告诉你它实际上并不“智能”呢?它只是一个强化版的马尔可夫链。
这并非批评。这实际上是它成功的关键。
在所有关于“涌现智能”、“零样本推理”和“综合思维”的讨论背后,隐藏着一个基本事实:
像 GPT-4 这样的语言模型,其核心只是估算:P(下一个标记 | 最后一个标记)
这是 K 阶马尔可夫链的教科书式定义。
拥有 50,000 个标记的词汇表和 32,000 个标记的上下文窗口,我们处理的是一个天文数字般的——但在概念上却很熟悉的——状态空间。
Transformer 是一个出色的近似引擎。它在这个难以理解的庞大空间中学习转移概率。它的名字叫“自注意力”。具体数学是什么?它就是大规模的条件概率。
1、从转换核到 Transformer
让我们从视觉和代码的角度来分解一下。
1.1 马尔可夫链入门
一个简单的马尔可夫链转移矩阵:
import numpy as np
states = ["A", "B", "C"]
transition_matrix = np.array([
[0.1, 0.6, 0.3], # P(next | A)
[0.4, 0.4, 0.2], # P(next | B)
[0.3, 0.3, 0.4], # P(next | C)
])
现在将其扩展到 50,000 个状态,并以最后 K = 32,000 个词条作为条件。
我们不仅仅是构建一个转移矩阵——我们还针对每个提示构建它的动态近似值。
在您附加的 GIF 中,词汇表 V = {0,1} 和 3 个词条的上下文窗口产生了 ²³ = 8 种可能的状态。随着上下文窗口的增加,这个空间会呈指数级增长——Transformer 必须通过学习转移概率的函数近似来克服同样的现象。
1.2 Transformer 的实际作用
Transformer 近似于这个转移核:
P(x_{t+1} | x_t, x_{t-1}, …, x_{t-K}) ≈ f_θ(x_{t-K:t})
其中 f_θ 由自注意力模块和前馈网络参数化。
每个注意力头会选择性地对过去的 token 进行加权,以近似这个高维核的局部结构。
因此,我们不是存储一个巨大的转移表,而是学习一个根据上下文估计转移的函数。
这也解释了上下文学习 (ICL) 的强大之处:它不是魔法,而是结构化的核估计。
3、Zekri 等人 (2025):使理论严谨
Zekri 等人将我们许多大型语言模型(LLM)工作者长期以来的直觉理解:Transformer 的行为可以通过随机过程的视角来理解。
他们将 token 序列建模为由未知过渡核 κ 生成的非独立同分布随机过程 𝒳,并表明基于 Transformer 的模型在有限样本条件下能够近似该 κ。
正式定义(摘自论文):
设 𝒳 = (x₁, x₂, …, x_T) 为来自某个过程 P 的随机序列。设 f 为在 𝒳₁:n 上训练并在 𝒳_{n+1:T} 上求值的预测器。
Zekri 等人引入取决于以下因素的泛化边界:
• 𝒳 的混合时间 τ • 预测器类 ℱ 的 VC 维度
关键定理:泛化误差会随着 token 数量的增加而衰减,同时也会随着链混合速度的增加而衰减。
这非常重要。它告诉我们:
• 混合缓慢的序列(例如高度结构化的领域)更难进行泛化。• ICL 的性能可以根据源过程的随机性进行预测。
Zekri 等人进一步表明,涌现的泛化行为(在小样本学习或任务切换中表现为突然跳跃)与底层核的可学习性的相变密切相关。
3.1 从数学上讲,“涌现”是什么?
LLM 中的涌现行为(推理、翻译或算术能力的突然提升)常常让实践者感到困惑。但从统计学角度来看,这可以理解为泛化误差的相变。
假设你的模型通过拟合非独立同分布序列来近似条件分布 P(y|x)。存在一个阈值机制:
• 参数数量 (N) • 训练标记数量 (T) • 序列混合时间 (τ)
超过该阈值,近似误差会急剧下降。这类似于双下降现象,只不过是在序列空间中。
因此,涌现并不神秘。它意味着:
涌现 ⟺ 泛化边界在非独立同分布过程中的急剧转变
它是规模与结构匹配的统计特征。
人工智能工程师的实用要点:
LLM 是具有学习过渡近似器的马尔可夫模型。这种观点在实际系统中非常有用:
3.2 提示工程 = 初始状态调节
每个提示都是一个新的马尔可夫链初始化。你正在间接地影响内核。
def initialize_chain(prompt_tokens, model):
"""
Initialize the Markov chain with a specific prompt
"""
# The prompt sets the initial state distribution
initial_state = model.encode(prompt_tokens)
# This influences all subsequent transitions
return initial_state
3.3 微调 = 转换核校正
您正在调整估计器 f_θ,以更好地模拟 κ 的某些区域。
def fine_tune_kernel(base_model, domain_data):
"""
Adjust transition probabilities for specific domain
"""
# Modify the learned approximation f_θ
# to better capture domain-specific transitions
for batch in domain_data:
loss = compute_transition_loss(base_model, batch)
update_parameters(base_model, loss)
return base_model
3.4 检索增强生成 = 状态注入
在上下文中插入新的 token 会改变链的走向。你正在篡改轨迹。
def inject_context(current_state, retrieved_info):
"""
Modify chain trajectory with external information
"""
# Insert retrieved tokens into the sequence
modified_context = concatenate([current_state, retrieved_info])
# This changes the transition probabilities going forward
return modified_context
3.5 泛化能力 = 核平滑度 + 混合时间
当转换核平滑且底层序列快速混合时,模型具有良好的泛化能力。
3.6 为何这能揭开“涌现”的神秘面纱
本文揭开了LLM中“涌现”行为的神秘面纱:
- 上下文学习并非少样本元学习。它是对近期轨迹进行在线核拟合。
- 思路链提示之所以有效,是因为它能将思路链推入可解释的中间状态。
- 当核即使在非支持的情况下也能很好地近似时,零样本泛化能力就会出现。
简而言之,LLM不进行“推理”。他们转换得非常熟练。
4、结语:回归数学
我们不需要神秘主义来欣赏大模型 (LLM)。我们需要数学。
将 Transformer 理解为条件 token 转换的大规模估计器——基于结构化、非独立同分布的过程——可以让我们获得可解释性和控制力。
GPT-4 之所以智能,并非因为它超越了概率。
它之所以智能,是因为它实现了大规模概率。
原文链接:GPT-4 Is Just a Giant Markov Chain — And That's the Genius of It
汇智网翻译整理,转载请标明出处
