21个强化学习概念图解

跳过复杂的数学，终于可以在不迷失于术语中理解RL了。

admin

May 24, 2026 • 25 min read

AI模型价格对比 | AI工具导航 | ONNX模型库 | Vibe Coding教程 | PLC在线仿真器 | Tripo 3D | Meshy AI | ElevenLabs | KlingAI | ArtSpace | Phot.AI | InVideo

强化学习（RL）正在回归并成为主流。

从人形机器人和击败世界冠军的游戏AI，到你每天聊天的LLM，都是使用RL训练的，这让它们能够从经验中学习并通过反馈变得更好。

与许多让它看起来很难的教程相反，RL其实相当直观，你真的不需要博士学位就能理解它是如何工作的。

在本课中，我们将介绍RL中的21个关键概念，从零开始建立坚实的基础。这些术语都用通俗的语言解释，不使用任何花哨的数学方程式。

让我们从最基础的开始。

1. 什么是强化学习？

让我们从强化学习（RL）的定义开始。

RL是一种机器学习类型（除了监督学习和无监督学习之外），涉及一个叫做"智能体"的实体，试图通过试错来学习在其"环境"中更好地执行任务。

例如，一只鹿（智能体）在森林（环境）中觅食以生存，避免被捕食者吃掉。

我们很快就会转向更多与AI相关的例子，我保证，但首先，让我们更好地理解"智能体"和"环境"这两个术语的含义。

2. 智能体

智能体是RL中的核心实体。它是研究并与环境交互、做出决策、采取行动并从结果中学习的实体。

在我们之前的案例中，我们用鹿作为智能体的例子，但从现在开始，我们将在讨论概念时也将LLM视为智能体。

3. 环境

环境是智能体与之交互的所有外部事物。

环境的功能是：

受智能体行动的影响
根据智能体的行动改变其状态（或保持其状态不变）
根据智能体的行动给予奖励或惩罚，以便智能体可以在下次采取行动时修改其意图

在第一个案例中，鹿以森林作为其环境运作。根据鹿的行动（向不同方向移动），森林（环境）要么让它接近食物（奖励），要么让它暴露在猎豹面前（惩罚）。

在LLM作为智能体的情况下，它之外的一切都是其环境的一部分：

用户输入
系统提示
它可以调用的工具/API
系统响应（工具结果、API输出、错误消息）
上下文（文档、对话历史、文件）

4. 状态

状态是环境在给定时间的快照。它是智能体在给定时刻看到的所有信息，可以用来做出下一个决策。

对于鹿智能体来说，它可能是它在森林中的当前位置、附近的捕食者和一天中的时间。

对于LLM智能体来说，它是它在给定时刻可以访问的所有上下文，可以用来决定其下一个行动。

但什么是行动呢？

5. 行动

行动是智能体在给定环境状态下做出的选择。

对于鹿智能体来说，行动可能是向觅食区域移动或在发现捕食者时逃跑。

对于LLM智能体来说，行动可能是生成文本、创建图像或调用工具。

一个重要的考虑点是，当你放大一个场景时，行动会变得更加细粒度。

例如，对于鹿来说，当它在环境中发现捕食者时，行动可能是更快地移动其腿部肌肉和关节。

同样，生成单个token就是LLM的一个行动，给定它之前生成的所有token（环境）。

6. 行动空间

行动空间是智能体在给定状态下可以采取的所有可能行动的集合。

鹿智能体的行动空间可能包括向4个方向移动、跳跃、进食或保持静止。

LLM的行动空间包括生成不同的响应和使用可用的工具。

当我们放大到token级别并将每个token的生成视为LLM的行动时，行动空间就变成了模型的词汇表（它在给定步骤可以输出的所有token的集合）。

鹿不能飞，LLM也不能发出光线。智能体只能采取其行动空间内可用的行动。

7. 奖励

奖励是智能体从环境中接收到的信号，引导它在未来采取更好的行动。

奖励可以是正数、零或负数。

RL研究人员是体贴的人，通常在文献中避免使用"惩罚"这个术语。

对于鹿智能体：

找到食物和逃避捕食者将从环境中获得正奖励
导致受伤或挨饿的行动将从环境中获得负奖励

对于使用基于人类反馈的强化学习（RLHF）训练的LLM：

生成安全且有帮助的响应将从环境中获得正奖励
生成有害的响应将从环境中获得负奖励

在这种情况下，环境包含一个奖励模型。

我们将在后续部分更详细地讨论RLHF，所以现在不用担心。

8. 策略

智能体在特定状态下采取行动的策略称为其策略。

在数学上，它是一个映射，决定在给定特定状态时采取什么行动。

策略可以是：

确定性的：智能体在特定状态下采取相同的行动
随机性/概率性的：智能体在给定状态下基于概率采取不同的行动，就像LLM的情况一样，其中温度控制它生成下一个token的选择

对于鹿智能体来说，它学到的生存本能就是它的策略。

对于LLM来说，它的参数（权重和偏置）就是它的策略。虽然重要的是要知道，在流行的RL文献中，LLM本身被视为策略。

9. 轨迹

轨迹是智能体在与环境交互过程中随时间经历的完整状态、行动和奖励序列。

轨迹可以是：

有限的：对于有终点的任务，例如国际象棋智能体
无限的：对于无限期持续的任务，例如股票交易智能体

对于鹿智能体，一个轨迹可能看起来像：

早晨的森林（状态）
走到河边喝水（行动）
从环境中获得奖励，因为这个行动有助于生存（正奖励）
发现捕食者（状态）
逃跑（行动）
被捕食者抓住并死亡，结束轨迹（从环境中获得负奖励）

对于正在训练调用工具并有帮助地响应的LLM智能体，一个轨迹可能看起来像：

LLM收到一个查询（状态）
它调用一个搜索网络的工具（行动）
它因为调用了正确的工具而获得奖励（正奖励）
搜索结果出现（新状态）
LLM使用搜索结果生成最终答案（行动）
答案正确，LLM获得正奖励

10. 回合

回合是一个有明确终点的轨迹。

它是智能体与其环境之间从开始到终止状态的有限交互序列。

例如，一只从安静的森林开始的鹿最终被其捕食者吃掉标志着一个回合（不幸的是，一个非常糟糕的回合）。

同样，一个LLM智能体成功完成用户在网上订购最喜爱餐食的请求代表一个回合，因为它有明确的开始和结束。

11. 回报

回报是智能体在一个回合（甚至在一个不确定的轨迹上）中收集的总奖励。

对于一只鹿在一个一日的回合中（从开始的醒来状态到终止的入睡状态），回报是所有以下之和：

正奖励：进食、喝水、逃避捕食者
负奖励：受伤、与鹿群分离

对于正在训练推理的LLM，一个回合从收到提示开始，持续到它到达终止状态，此时它返回最终输出。

它在这段时间内的回报是所有以下之和：

正奖励：清晰的逻辑推理步骤、使用适当的工具、返回有帮助且安全的最终答案
负奖励：在其推理链中犯逻辑错误、重复推理、过早放弃、使用错误的工具、返回错误的最终答案

RL智能体的目标是在环境中最大化其回报，这意味着学习采取能获得更多正奖励和更少负奖励的行动。

12. 折扣奖励

智能体必须花时间探索其环境以最大化回报，因为对微小短期奖励的贪婪可能导致错失巨大的长期奖励。

例如，一只鹿可能专注于在开阔草地上觅食（专注于即时奖励），但随后被发现并被捕食者吃掉（一个糟糕的长期结果）。

但同样，智能体也不应在探索环境上花太长时间，还必须利用其可用的资源。

例如，如果有草可用，吃掉它可能帮助鹿恢复能量，如果被发现的话可以逃避捕食者。

这就是RL中经典的探索-利用困境（以及我们的生活中）。

为了控制智能体在环境中的行为方式，在计算回报时使用折扣因子。

**折扣因子（ɣ）**是一个介于0和1之间的值，控制智能体对未来奖励与即时奖励的关心程度。

低ɣ（0.25）增加了即时奖励的价值，使智能体变得贪婪。
高ɣ（0.99）使未来奖励几乎与即时奖励一样有价值，推动智能体进行长期规划。

考虑一个正在训练中的推理LLM。

较低的折扣因子会推动模型使用更短、更集中的推理链，因为我们更多地奖励它们并大幅折扣未来奖励。

但我们也不能使折扣因子太低，因为这会导致LLM为了快速奖励而跳过较长的关键推理步骤。

这就是为什么找到折扣奖励的最佳平衡点如此重要。

13. 价值函数

价值函数是智能体在试图最大化其回报时所依赖的数学函数。

这些函数估计智能体处于特定情况有多好。当我们说"多好"时，这意味着从给定情况下的预期未来回报。预期未来回报被称为价值。

有三个价值函数回答三个不同的问题：

状态价值函数或V(s)： "智能体处于特定状态有多好？" 例如，对于鹿智能体，处于被树木覆盖的河岸（状态）的价值高于在开阔地带。
行动价值函数或Q函数或Q(s, a)： "智能体处于特定状态并从那里采取特定行动有多好？" 例如，对于鹿智能体，在靠近河岸时（状态）喝水的价值（行动）高于远离（另一个行动）。
优势函数或A(s, a)： "在特定状态下，智能体采取特定行动比平均水平好多少？" 例如，假设鹿智能体在森林中（状态），所有可能行动的平均价值是 V = 5。当它走向河边时，这个行动在当前状态下的行动价值为 Q = 8，但当它在露天睡觉时，行动价值为 Q = 1。

这意味着：

走向河边的优势是 Q - V = 8 - 5 = +3
在露天睡觉的优势是 Q - V = 1 - 5 = -4

但我们实际上如何求解这些价值函数呢？

14. 贝尔曼方程

贝尔曼方程递归地定义价值函数，使它们易于计算。

它将价值函数定义为预期即时奖励加上下一状态折扣价值之和。

虽然以下图片显示了状态价值函数的贝尔曼方程，但状态价值函数和行动价值函数都有自己的贝尔曼方程。

15. 马尔可夫性质

我们上面描述的一切都遵循马尔可夫性质。

这意味着未来状态仅取决于当前状态和从那里采取的行动，而不是智能体和环境的整个历史。

换句话说，知道智能体现在在哪里就提供了预测其未来所需的所有信息，而不是知道它是如何到达那里的。

16. 马尔可夫决策过程（MDP）

RL中决策的基础数学框架，以及找到最大化预期累积折扣奖励的最优策略的框架，建立在马尔可夫性质之上，被称为马尔可夫决策过程。

它包括：

智能体可以处于的状态
智能体在每个状态下可以采取的行动
转移概率：采取行动时从一个状态移动到另一个状态的概率
智能体从一个状态转移到另一个状态后收到的奖励
折扣因子：优先考虑短期奖励而非长期奖励

所有经典RL算法都假设环境是一个MDP。

17. RL算法

到目前为止，我们已经了解到环境中的智能体：

想要最大化其回报
可以使用价值函数和它们的贝尔曼方程来评估不同情况

但智能体实际上如何学会以最大化回报的最优方式行动呢？

它可以在两种设置中学会这样做：

基于模型的RL：智能体被给定或构建其环境的内部模型。这个模型帮助智能体在环境中行动之前进行规划。 Google DeepMind的AlphaGo就是这种方法的例子，其中RL智能体被给定围棋的模型，它可以用它来规划未来的步骤。
无模型RL：智能体没有环境模型，或者不理解其环境如何工作。智能体与环境交互并从经验中学习。

无模型RL更广泛地使用，有两种形式（或它们的组合）：

基于价值的方法这些涉及智能体学习最优（或最佳）价值函数，以了解每个状态或状态-行动对有多好，然后基于这些选择最高价值的行动。

这些方法的一些例子包括：

Q-learning/ Deep Q-Network（DQN）
SARSA

2. 基于策略的方法这些涉及智能体直接学习最大化回报的策略。这样的策略被称为最优策略。

这些方法的一些例子包括：

REINFORCE
TRPO
PPO

现代RL算法的非详尽分类

由于我们专注于与LLM相关的RL，我们将只关注无模型方法，特别是基于策略的方法。其中，我们特别感兴趣的是PPO和GRPO。

18. PPO

近端策略优化（PPO）来自一个称为策略梯度的基于策略的RL算法家族。

以下是策略梯度算法的工作方式：

智能体（在我们这里是LLM）首先与环境交互并在其轨迹中收集样本（一组状态、行动和奖励）。这些用于估计每个采取行动的回报。
然后计算预期回报相对于策略参数的梯度。
最后，策略参数沿着增加回报的方向更新。

这些步骤在许多轨迹上重复，逐步改进策略以选择导致更高奖励的行动。

但是这个算法有一个小问题。假设其中一个行动导致了巨大的奖励。这可以在单次更新中戏剧性地改变策略，有时会破坏智能体已经学到的东西。

例如，如果一只鹿曾经在空地上找到了大量食物，一个大的奖励可能导致它改变行为，总是去那里找食物。

这对鹿来说是灾难性的，因为它增加了被捕食者发现的机会。相反，它必须缓慢而逐步地更新其本能，不要因为一次大的奖励就改变太多。

这就是导致PPO的原因。

PPO谨慎地更新智能体的策略，使更新后的策略不会偏离之前的策略太远。（因此，其名称中的"近端"。）

PPO将每个策略更新裁剪在一个范围内，设定了策略一次可以改变多少的上下限，无论行动和其导致的奖励有多好或多坏。

下图显示了PPO在RLHF中的使用，我们接下来讨论。

19. RLHF

现代LLM的目的不仅是生成下一个token，还要有帮助地遵循用户的指令并返回安全的响应。

基于人类反馈的强化学习，或RLHF，是OpenAI引入的使这成为可能的技术之一。

RLHF微调LLM以与人类偏好一致的方式响应。因此，这种微调技术也被称为对齐调优。

它的工作方式如下：

RLHF的过程从一个已经过监督微调以对话风格生成对用户查询响应的LLM开始。这与只能生成文本但不能与用户聊天的预训练LLM不同。
收集对不同提示的多个响应，人类将它们从最偏好到最不偏好进行标记。
基于这些偏好数据，训练一个单独的奖励模型（LLM）来预测人类对给定提示会偏好哪个响应。这个奖励模型对更受偏好的响应返回更高的奖励，反之亦然，充当过程中人类评判者的代理。
训练中的LLM为给定提示生成响应。
这个响应由奖励模型评估，返回一个奖励。
基于奖励，使用PPO更新训练中的LLM以产生更高奖励的响应。

这里简要描述了RLHF的过程。它比这稍微复杂一些，但当我们回到之前看到的PPO图片时会变得更加清晰。

具体流程如下：

给定提示或查询（Q），策略模型（训练中的LLM）生成响应或输出（O）。
这个输出进入奖励模型，根据响应与人类偏好的对齐程度返回奖励（R）。
输出也发送到参考模型（原始策略模型的冻结副本）并与它的输出进行比较，基于它们之间的差异计算KL惩罚。
这个惩罚从奖励模型的分数/奖励中减去，以确保奖励模型高度奖励的响应保持接近参考模型作为代理的自然人类输出。
价值模型也查看提示和响应来预测每一步的最终奖励应该是什么。这个预测的奖励或价值用 V 表示。
使用一种称为GAE（广义优势估计）的方法，利用奖励（R）和价值（V）来计算优势（A）。
使用优势来更新策略模型，其中每个策略更新都裁剪在一个范围内以避免大的变化。
价值模型也使用单独的损失来更新，以便在未来的步骤中更准确地预测奖励。

RLHF with PPO需要4个不同的模型（策略、参考、奖励、价值），其中奖励和参考模型有冻结的权重，而策略和价值模型被训练。

这使得它难以优化且非常消耗内存。这就是为什么现代LLM管道跳过PPO而使用以下之一：

分组相对策略优化或GRPO：一个更简单、更节省内存的PPO版本，完全移除了价值模型
直接偏好优化或DPO：移除了RLHF中的RL部分，而是使用监督目标直接在偏好对上训练LLM

20. GRPO

分组相对策略优化，或GRPO，由DeepSeek引入，通过完全移除价值模型来简化PPO。

还记得价值模型是如何被用来预测响应是否比预期更好吗？

GRPO通过简单地检查一个响应是否比生成的响应组中的其他响应更好来做到这一点。这使其比PPO更节省内存且更容易实现。

它的工作方式如下：

对于给定的提示或查询（Q），策略模型首先同时生成一组响应或输出（O(1) 到 O(g)）。
每个响应由奖励模型评分，产生奖励（R(1) 到 R(g)）。
参考模型用于计算KL惩罚，保持策略模型不会偏离其起点太远。
计算响应组的所有奖励的平均值和标准差。
使用这些来计算每个响应的优势值（A(1) 到 A(g)），告诉它比组平均值好或差多少。
然后更新策略模型（使用裁剪更新），以增加生成高优势响应的概率并减少生成低优势响应的概率。

21. RLVR

现在是时候理解本课的最后一个概念——RLVR了。

可验证奖励的强化学习（RLVR），在Tulu 3论文中引入，是一种训练LLM在可以客观验证的任务上表现良好的方法。

这包括数学或编码等任务，其中简单的基于规则的验证器（不是LLM）可以检查答案是否正确。

将其与使LLM与人类偏好对齐等任务进行比较，后者是高度主观的，无法由RLVR处理。

它的工作方式如下：

对于给定的解决数学/编码任务的提示，策略模型生成一个或多个响应。
基于规则的验证器检查答案是否正确。正确的响应获得奖励1，错误的获得0。
使用PPO或GRPO更新策略模型，使正确的推理路径更可能。

更清楚地说，如果RLVR与PPO一起使用：

策略模型生成单个响应。
使用简单的验证器（而不是奖励模型）验证其正确性，返回奖励。
在策略和参考模型之间应用KL惩罚以正则化更新。
价值模型估计预期奖励，并计算优势。
策略模型使用裁剪更新。

但如果RLVR与GRPO一起使用：

策略模型为给定提示生成一组响应。
使用简单的验证器验证它们的正确性，返回奖励。
在策略和参考模型之间应用KL惩罚以正则化更新。
计算组奖励的平均值和标准差。
计算每个响应相对于组平均值和标准差的优势。
策略模型使用裁剪更新。

TL;DR

如果你时间紧张，这里是所有术语的一行定义。

强化学习：机器学习的三个子类型之一，智能体通过试错学习更好地执行任务
智能体：RL中的核心实体和决策者。
环境：智能体与之交互并从中接收反馈的所有外部事物。
状态：环境在给定时间的快照。
行动：智能体在给定环境状态下做出的选择。
行动空间：智能体在给定状态下可以采取的所有可能行动的集合。
奖励：智能体从环境中接收到的信号（正数、零或负数），引导它在未来采取更好的行动。
策略：智能体在特定状态下采取行动的策略。
轨迹：智能体在与环境交互过程中随时间经历的完整状态、行动和奖励序列。
回合：一个有明确终点的轨迹。
回报：智能体在其轨迹上收集的总奖励。
折扣奖励：一种加权奖励的方法，使智能体学会平衡短期收益和长期规划。
价值函数：估计智能体处于特定情况或采取特定行动有多好的数学函数，以最大化其回报。
贝尔曼方程：一个递归公式，将价值函数定义为预期即时奖励加上下一状态折扣价值之和，使其易于计算。
马尔可夫性质：智能体的未来状态仅取决于当前状态和从那里采取的行动，而不是智能体和环境的整个历史。
MDP：RL中决策的基础数学框架，建立在马尔可夫性质之上，用于找到最大化预期累积折扣奖励的最优策略。
RL算法：智能体用来学会以最大化回报的最优方式行动的方法。
PPO：一种基于策略的RL算法，谨慎地裁剪策略更新以避免破坏智能体的学习。
RLHF：一种使用奖励模型和PPO微调LLM使其响应与人类偏好对齐的技术。
GRPO：一个简化版的PPO，移除了价值模型，而是相对于一组生成的响应计算优势。
RLVR：一种使用基于规则的验证器而不是奖励模型来训练LLM在可以客观验证的任务（如数学或编码）上表现良好的方法。

RL是一个广阔的领域，但希望这篇文章能帮助你入门，并理解今天在LLM背景下RL中重要的内容。

原文链接: 21 Reinforcement Learning (RL) Concepts Explained In Plain English

汇智网翻译整理，转载请标明出处