24 强化学习中的优势函数

Q: 强化学习中的优势函数适合谁读？

这是 强化学习入门 系列第 24 / 28 篇，适合正在学习强化学习入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-15

最近更新: 2026-06-04

分类: 强化学习

预计阅读: 4 分钟

阅读次数: 0

系列进度

强化学习入门 · 第 24 / 28 篇

上一篇REINFORCE算法下一篇强化学习在游戏中的应用

预计阅读4 分钟

结构重点5 个

图文要点6 张

正文规模1.5k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 5 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步什么是优势函数？02第 2 步优势函数的应用 03第 3 步优势函数的优势 04第 4 步总结

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线强化学习中的优势函数结构图跳到对应正文位置

图 02 · 步骤强化学习中的优势函数核对图跳到对应正文位置

图 03 · 配置强化学习中的优势函数要点判断卡跳到对应正文位置

图 04 · 判断强化学习阅读地图卡跳到对应正文位置

图 05 · 复盘强化学习中的优势函数应用复盘卡跳到对应正文位置

图 06 · 细节强化学习中的优势函数应用检查卡跳到对应正文位置

强化学习的核心是智能体在环境中试错，学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「什么是优势函数？ -> 优势函数的应用 -> 示例：利用优势函数改善策略学习 -> 优势函数的优势」建立结构，再回到正文里的代码、案例或指标做验证。

读完后，用一个真实小任务复查：输入是什么，处理环节在哪里，输出是否可验收；失败时先查「什么是优势函数？」，再查「优势函数的应用」。

在上篇中，我们探讨了策略梯度方法中的基本算法——REINFORCE算法，了解了如何通过采样策略来更新参数以最大化预期奖励。本文将深入探讨一个关键概念——优势函数，并将其与策略梯度方法相结合，以提高学习效率。

什么是优势函数？

在强化学习中，优势函数（Advantage Function）用于衡量一个动作相对于其他动作的效果。通常，我们用 $A(s, a)$ 表示状态 $s$ 和动作 $a$ 的优势函数，它可以定义为：

读这篇时，可以把「什么是优势函数？ -> 优势函数的应用 -> 示例：利用优势函数改 -> 优势函数的优势」当成一条检查线：先把对象、步骤和证据对齐，再回到案例、代码或指标里复查。

A(s, a) = Q(s, a) - V(s)

这里：

$Q(s, a)$ 是给定状态 $s$ 和动作 $a$ 的动作价值函数。
$V(s)$ 是状态价值函数，表示在状态 $s$ 时的预期回报。

优势函数的意义在于，它能更好地表示某个动作的相对好坏程度，从而有助于策略优化。在许多情况下，使用优势函数可以减少方差，提高学习的稳定性。

优势函数的应用

在策略梯度方法中，我们通常使用REINFORCE算法直接优化期望奖励。但通过引入优势函数，我们可以采用更为有效的算法，如A3C（Asynchronous Actor-Critic）和PPO（Proximal Policy Optimization）。

《强化学习中的优势函数》这类内容容易被细节带偏。先看图里的主线，再回到正文核对环境、输入、输出和判断标准。

示例：利用优势函数改善策略学习

假设我们有一个简单的迷宫环境，在其中智能体需要从起点到达终点。我们可以使用Q函数和V函数来计算每一步的优势。

import numpy as np

def compute_advantage(rewards, values, gamma=0.99):
    advantage = np.zeros_like(rewards)
    for t in reversed(range(len(rewards))):
        if t == len(rewards) - 1:
            delta = rewards[t] - values[t]
        else:
            delta = rewards[t] + gamma * values[t + 1] - values[t]
        advantage[t] = delta + (gamma * advantage[t + 1] if t < len(rewards) - 1 else 0)
    return advantage