22 策略梯度的基本概念

Q: 策略梯度的基本概念适合谁读？

这是 强化学习入门 系列第 22 / 28 篇，适合正在学习强化学习入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-15

最近更新: 2026-06-04

分类: 强化学习

预计阅读: 4 分钟

阅读次数: 0

系列进度

强化学习入门 · 第 22 / 28 篇

上一篇深度强化学习之经验回放下一篇REINFORCE算法

预计阅读4 分钟

结构重点6 个

图文要点6 张

正文规模1.6k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 6 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步强化学习中的策略 02第 2 步策略梯度 03第 3 步总结

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线策略梯度的基本概念结构图跳到对应正文位置

图 02 · 步骤策略梯度的基本概念核对图跳到对应正文位置

图 03 · 配置策略梯度的基本概念要点判断卡跳到对应正文位置

图 04 · 判断强化学习阅读地图卡跳到对应正文位置

图 05 · 复盘策略梯度的基本概念应用复盘卡跳到对应正文位置

图 06 · 细节策略梯度的基本概念应用检查卡跳到对应正文位置

强化学习的核心是智能体在环境中试错，学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「强化学习中的策略 -> 策略的参数化 -> 策略梯度 -> 策略梯度定理」建立结构，再回到正文里的代码、案例或指标做验证。

读完后，用一个真实小任务复查：输入是什么，处理环节在哪里，输出是否可验收；失败时先查「强化学习中的策略」，再查「策略的参数化」。

在前一篇文章中，我们探讨了经验回放在深度强化学习中的重要性，它让智能体可以重用过去的经验，从而提高学习的效率和稳定性。本篇文章将引入策略梯度方法的基本概念，为后续的REINFORCE算法打下基础。

强化学习中的策略

在强化学习中，策略是智能体在给定状态下选择动作的规则。策略分为确定性策略和随机策略两种：

读这篇时，可以把「强化学习中的策略 -> 策略的参数化 -> 策略梯度 -> 策略梯度定理」当成一条检查线：先分清主题、路径和验证点，再回到案例、代码或指标里复查。

确定性策略：在每个状态下，策略总是选择同一动作，通常用 $\pi(s)$ 表示。
随机策略：在每个状态下，策略给出各动作的概率分布，记为 $\pi(a|s)$ ，表示在状态 $s$ 下采取动作 $a$ 的概率。

策略的参数化

在许多情况下，尤其是复杂的环境中，直接指定策略是困难的。因此，我们通常会使用参数化策略。也就是说，我们使用一个参数集 $\theta$ 来表示策略，从而可以写作：

\pi_\theta(a|s)

这里， $\theta$ 可以是一个神经网络的权重，它通过学习来调整策略。

策略梯度

策略梯度方法旨在通过直接优化策略来提高强化学习的性能。相较于值函数方法（如Q学习），策略梯度方法直接对策略进行建模和优化，有以下主要优点：

读完《策略梯度的基本概念》后，可以回头问三件事：它解决什么问题，哪一步最容易出错，自己能否拿一个小例子跑通。

能够处理高维和连续的动作空间。
更容易优化复杂的策略，因为梯度信息提供了更为直接的调整方式。

策略梯度定理

策略的每一步产生的期望收益 $\mathbb{E}[R]$ 可以用策略梯度定理表示为：

\nabla J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \nabla \log \pi_\theta(a_t | s_t) G_t \right]

其中：

$J(\theta)$ 是我们希望最大化的目标函数（通常是期望回报）。
$G_t$ 是在时间步 $t$ 时，从该状态开始的回报。

这表明我们可以通过取每个动作的对数梯度与累积回报的乘积的期望，来计算目标函数的梯度。

示例：简单的策略梯度更新

设想一个简单的策略梯度智能体，通过随机策略在一个网格世界中移动。在每个时间步中，智能体根据当前状态选择一个动作，并执行该动作以获得回报。以下是一个基本的策略更新的伪代码示例：

import numpy as np

# 初始化策略的参数
theta = np.random.rand(n_actions)

def policy(state):
    # softmax 策略
    exp_theta = np.exp(theta)
    return exp_theta / np.sum(exp_theta)

def policy_gradient_update(state, action, reward):
    p = policy(state)
    G_t = reward  # 这里假设 G_t 是当前获得的回报
    
    # 计算梯度
    grad_log_policy = np.zeros_like(theta)
    grad_log_policy[action] = 1 - p[action]
    
    # 更新参数
    theta += alpha * grad_log_policy * G_t