GPT-4 只是一个巨大的马尔可夫链

在所有关于“涌现智能”、“零样本推理”和“综合思维”的讨论背后,隐藏着一个基本事实。

GPT-4 只是一个巨大的马尔可夫链
“所有模型都是错的,但有些是马尔可夫链。”—— Swarnendu Bhattacharya

GPT-4 可能是有史以来最令人印象深刻的统计模型。但如果我告诉你它实际上并不“智能”呢?它只是一个强化版的马尔可夫链。

这并非批评。这实际上是它成功的关键。

在所有关于“涌现智能”、“零样本推理”和“综合思维”的讨论背后,隐藏着一个基本事实:

像 GPT-4 这样的语言模型,其核心只是估算:P(下一个标记 | 最后一个标记)

这是 K 阶马尔可夫链的教科书式定义。

拥有 50,000 个标记的词汇表和 32,000 个标记的上下文窗口,我们处理的是一个天文数字般的——但在概念上却很熟悉的——状态空间。

Transformer 是一个出色的近似引擎。它在这个难以理解的庞大空间中学习转移概率。它的名字叫“自注意力”。具体数学是什么?它就是大规模的条件概率。

1、从转换核到 Transformer

让我们从视觉和代码的角度来分解一下。

1.1 马尔可夫链入门

一个简单的马尔可夫链转移矩阵:

import numpy as np
states = ["A", "B", "C"]
transition_matrix = np.array([
    [0.1, 0.6, 0.3],  # P(next | A)
    [0.4, 0.4, 0.2],  # P(next | B)
    [0.3, 0.3, 0.4],  # P(next | C)
])

现在将其扩展到 50,000 个状态,并以最后 K = 32,000 个词条作为条件。

我们不仅仅是构建一个转移矩阵——我们还针对每个提示构建它的动态近似值。

在您附加的 GIF 中,词汇表 V = {0,1} 和 3 个词条的上下文窗口产生了 ²³ = 8 种可能的状态。随着上下文窗口的增加,这个空间会呈指数级增长——Transformer 必须通过学习转移概率的函数近似来克服同样的现象。

1.2 Transformer 的实际作用

Transformer 近似于这个转移核:

P(x_{t+1} | x_t, x_{t-1}, …, x_{t-K}) ≈ f_θ(x_{t-K:t})

其中 f_θ 由自注意力模块和前馈网络参数化。

每个注意力头会选择性地对过去的 token 进行加权,以近似这个高维核的局部结构。

因此,我们不是存储一个巨大的转移表,而是学习一个根据上下文估计转移的函数。

这也解释了上下文学习 (ICL) 的强大之处:它不是魔法,而是结构化的核估计。

3、Zekri 等人 (2025):使理论严谨

Zekri 等人将我们许多大型语言模型(LLM)工作者长期以来的直觉理解:Transformer 的行为可以通过随机过程的视角来理解。

他们将 token 序列建模为由未知过渡核 κ 生成的非独立同分布随机过程 𝒳,并表明基于 Transformer 的模型在有限样本条件下能够近似该 κ。

正式定义(摘自论文):

设 𝒳 = (x₁, x₂, …, x_T) 为来自某个过程 P 的随机序列。设 f 为在 𝒳₁:n 上训练并在 𝒳_{n+1:T} 上求值的预测器。

Zekri 等人引入取决于以下因素的泛化边界:

• 𝒳 的混合时间 τ • 预测器类 ℱ 的 VC 维度

关键定理:泛化误差会随着 token 数量的增加而衰减,同时也会随着链混合速度的增加而衰减。

这非常重要。它告诉我们:

• 混合缓慢的序列(例如高度结构化的领域)更难进行泛化。• ICL 的性能可以根据源过程的随机性进行预测。

Zekri 等人进一步表明,涌现的泛化行为(在小样本学习或任务切换中表现为突然跳跃)与底层核的可学习性的相变密切相关。

3.1 从数学上讲,“涌现”是什么?

LLM 中的涌现行为(推理、翻译或算术能力的突然提升)常常让实践者感到困惑。但从统计学角度来看,这可以理解为泛化误差的相变。

假设你的模型通过拟合非独立同分布序列来近似条件分布 P(y|x)。存在一个阈值机制:

• 参数数量 (N) • 训练标记数量 (T) • 序列混合时间 (τ)

超过该阈值,近似误差会急剧下降。这类似于双下降现象,只不过是在序列空间中。

因此,涌现并不神秘。它意味着:

涌现 ⟺ 泛化边界在非独立同分布过程中的急剧转变

它是规模与结构匹配的统计特征。

人工智能工程师的实用要点:

LLM 是具有学习过渡近似器的马尔可夫模型。这种观点在实际系统中非常有用:

3.2 提示工程 = 初始状态调节

每个提示都是一个新的马尔可夫链初始化。你正在间接地影响内核。

def initialize_chain(prompt_tokens, model):
    """
    Initialize the Markov chain with a specific prompt
    """
    # The prompt sets the initial state distribution
    initial_state = model.encode(prompt_tokens)
    
    # This influences all subsequent transitions
    return initial_state

3.3 微调 = 转换核校正

您正在调整估计器 f_θ,以更好地模拟 κ 的某些区域。

def fine_tune_kernel(base_model, domain_data):
    """
    Adjust transition probabilities for specific domain
    """
    # Modify the learned approximation f_θ
    # to better capture domain-specific transitions
    for batch in domain_data:
        loss = compute_transition_loss(base_model, batch)
        update_parameters(base_model, loss)
    
    return base_model

3.4 检索增强生成 = 状态注入

在上下文中插入新的 token 会改变链的走向。你正在篡改轨迹。

def inject_context(current_state, retrieved_info):
    """
    Modify chain trajectory with external information
    """
    # Insert retrieved tokens into the sequence
    modified_context = concatenate([current_state, retrieved_info])
    
    # This changes the transition probabilities going forward
    return modified_context

3.5 泛化能力 = 核平滑度 + 混合时间

当转换核平滑且底层序列快速混合时,模型具有良好的泛化能力。

3.6 为何这能揭开“涌现”的神秘面纱

本文揭开了LLM中“涌现”行为的神秘面纱:

  • 上下文学习并非少样本元学习。它是对近期轨迹进行在线核拟合。
  • 思路链提示之所以有效,是因为它能将思路链推入可解释的中间状态。
  • 当核即使在非支持的情况下也能很好地近似时,零样本泛化能力就会出现。

简而言之,LLM不进行“推理”。他们转换得非常熟练。

4、结语:回归数学

我们不需要神秘主义来欣赏大模型 (LLM)。我们需要数学。

将 Transformer 理解为条件 token 转换的大规模估计器——基于结构化、非独立同分布的过程——可以让我们获得可解释性和控制力。

GPT-4 之所以智能,并非因为它超越了概率。

它之所以智能,是因为它实现了大规模概率。


原文链接:GPT-4 Is Just a Giant Markov Chain — And That's the Genius of It

汇智网翻译整理,转载请标明出处