14 强化学习之SARSA算法

Q: 强化学习之SARSA算法适合谁读？

这是 强化学习入门 系列第 14 / 28 篇，适合正在学习强化学习入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-15

最近更新: 2026-06-04

分类: 强化学习

预计阅读: 4 分钟

阅读次数: 0

系列进度

强化学习入门 · 第 14 / 28 篇

上一篇时序差分学习介绍下一篇时序差分学习之Q学习的原理与实现

预计阅读4 分钟

结构重点6 个

图文要点6 张

正文规模1.6k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 6 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步1. SARSA算法的基本原理 02第 2 步2. 实际案例 03第 3 步3. 总结

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线强化学习之SARSA算法结构图跳到对应正文位置

图 02 · 步骤强化学习之SARSA算法核对图跳到对应正文位置

图 03 · 配置SARSA算法判断卡跳到对应正文位置

图 04 · 判断强化学习阅读地图卡跳到对应正文位置

图 05 · 复盘强化学习之SARSA算法应用复盘卡跳到对应正文位置

图 06 · 细节强化学习之SARSA算法应用检查卡跳到对应正文位置

强化学习的核心是智能体在环境中试错，学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「SARSA算法的基本原理 -> SARSA算法的特点 -> 实际案例 -> 迷宫环境的设置」建立结构，再回到正文里的代码、案例或指标做验证。

读完后，用一个真实小任务复查：输入是什么，处理环节在哪里，输出是否可验收；失败时先查「SARSA算法的基本原理」，再查「SARSA算法的特点」。

在了解完时序差分学习的基本概念后，我们接下来将深入探讨一种具体的时序差分学习方法——SARSA（State-Action-Reward-State-Action）算法。SARSA 是一种在线的强化学习算法，它通过与环境的互动来学习状态-动作值函数，从而实现策略的改进。接下来，我们将通过理论、示例和代码，详细介绍 SARSA 算法的原理和实现。

1. SARSA算法的基本原理

SARSA的名称来源于它更新Q值的方式：它同时考虑当前状态、当前动作、奖励、下一个状态和下一个动作。具体而言，SARSA算法的核心更新公式为：

学习 SARSA 时，先看状态、动作、奖励、下一动作、TD 误差和 epsilon-greedy 策略。

Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \left( r_t + \gamma Q(s_{t+1}, a_{t+1}) - Q(s_t, a_t) \right)

其中：

$s_t$ 是在时间 $t$ 的状态。
$a_t$ 是在时间 $t$ 采取的动作。
$r_t$ 是在状态 $s_t$ 采取动作 $a_t$ 后获得的奖励。
$s_{t+1}$ 是在时间 $t+1$ 的状态。
$a_{t+1}$ 是在时间 $t+1$ 依据当前策略选择的动作。
$\alpha$ 是学习率，用于控制新信息对旧信息的更新。
$\gamma$ 是折扣因子，用于平衡当前奖励与未来奖励的重要性。

1.1 SARSA算法的特点

在线学习：SARSA 是一种在线学习算法，意味着 agente 将持续更新其策略，而不是在事后进行训练。
探索与利用：通过 $\epsilon$ -贪婪策略，SARSA 进行探索和利用的权衡，确保在学习过程中不会陷入局部最优。

2. 实际案例

为了更好地理解SARSA算法，我们可以考虑一个简化的迷宫问题，其中代理需要从起点移动到终点。在每个步骤中，它可以选择向上、下、左或右移动，并根据移动的结果得到奖励。我们的目标是通过SARSA算法来找到最优策略。

读完《强化学习之SARSA算法》不要只停在“看懂了”。回头挑一个步骤动手做一遍，再记录哪里卡住，后面的学习会更稳。

2.1 迷宫环境的设置

假设我们的迷宫如下所示，其中 S 是起点，G 是终点，-1 表示墙，0 表示可通行的路径：

S  0  0  0
0 -1  0  G
0  0 -1  0

奖励设置

到达 G 的奖励是 $+10$ 。
每移动一步的奖励是 $-1$ 。
碰到墙的奖励是 $-1$ 。

2.2 SARSA算法的实现

以下是使用 Python 和 NumPy 实现 SARSA 算法的一个简单示例：

import numpy as np
import random

# 环境设置
maze = np.array([[0, 0, 0, 10],
                 [0, -1, 0, -1],
                 [0, 0, -1, 0]])  # 0:可通行, -1:墙, 10:目标
actions = [0, 1, 2, 3]  # 上、下、左、右
q_table = np.zeros((3, 4, len(actions)))  # (状态数, 动作数)

# 超参数
alpha = 0.1  # 学习率
gamma = 0.9  # 折扣因子
epsilon = 0.1  # 探索率

def choose_action(state):
    if random.uniform(0, 1) < epsilon:  # 探索
        return random.choice(actions)
    else:  # 利用
        return np.argmax(q_table[state[0], state[1]])

def update_q_table(state, action, reward, next_state, next_action):
    q_table[state[0], state[1], action] += alpha * (
        reward + gamma * q_table[next_state[0], next_state[1], next_action] - q_table[state[0], state[1], action]
    )

# 训练
for episode in range(1000):
    state = (0, 0)  # 初始化状态为起点
    action = choose_action(state)
    
    while True:
        next_state = (state[0] + (action == 0) - (action == 1), 
                      state[1] + (action == 3) - (action == 2))  # 更新状态
                      
        # 确保新状态在边界内
        if next_state[0] < 0 or next_state[0] >= maze.shape[0] or next_state[1] < 0 or next_state[1] >= maze.shape[1]:
            next_state = state
        
        reward = maze[next_state] if maze[next_state] != -1 else -1  # 碰撞墙壁的情况
        next_action = choose_action(next_state)  # 根据新状态选择下一个动作
        
        # 更新Q表
        update_q_table(state, action, reward, next_state, next_action)
        
        state = next_state
        action = next_action
        
        if maze[state] == 10:  # 如果到达目标
            break

# 打印Q表
print("学习后的Q表：")
print(q_table)