13 时序差分学习介绍
系列进度
强化学习入门 · 第 13 / 28 篇
整理说明
这篇内容怎么整理
郭震 · 2026-06-04
阅读路线
先按这条路线读
先抓住主线,再回到代码、配置和图文细节,读起来会更稳。
强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「时序差分学习的基本概念 -> 时序差分学习的工作原理 -> TD学习的优点 -> 状态动作」建立结构,再回到正文里的代码、案例或指标做验证。
读完后,用一个真实小任务复查:输入是什么,处理环节在哪里,输出是否可验收;失败时先查「时序差分学习的基本概念」,再查「时序差分学习的工作原理」。
在强化学习的众多方法中,时序差分学习(Temporal Difference Learning, TD)是一种重要且广泛应用的算法,它结合了动态规划和蒙特卡罗方法的优点。通过将实时反馈与历史信息相结合,时序差分学习能够有效地进行价值函数的估计,从而指导智能体的学习过程。
时序差分学习的基本概念
在强化学习中,智能体通过在环境中进行探索和利用经验来学习策略。与蒙特卡罗方法完全依赖于完整的回报序列不同,时序差分学习可以在每个时间步长上使用当前的估计对价值进行更新。这样,智能体能够更频繁地更新其价值函数,提高学习效率。
学习时序差分方法时,先看当前价值、即时奖励、下一状态估计、TD 误差和更新步长。
时序差分学习的工作原理
时序差分学习的核心是使用当前状态和下一个状态之间的差异来更新状态价值函数。这种方法的基本思想可以用以下公式表示:
在上式中:
- 是当前状态 的价值估计。
- 是在状态 时采取的行动所获得的即刻奖励。
- 是智能体采取行动后转移到的新状态。
- 是学习率,决定更新的幅度。
- 是折扣因子,用于权衡未来奖励的重要性。
这个公式的关键在于它利用了当前状态的价值估计和 “未来”的价值估计相结合。这种方法允许智能体使用仅一小部分经验就能更新对价值的认识,从而加快学习过程。
TD学习的优点
学习《时序差分学习介绍》不必一口气吃完所有细节。先挑一个能动手验证的小问题,再顺着图和正文补齐概念。
- 在线学习:智能体可以在每一步获得奖励后更新其价值函数,无需等待终止状态,从而实现在线学习。
- 收敛性:TD学习在适当条件下可以保证收敛到正确的值函数。
- 效率高:由于其使用了当前和下一状态的信息,TD学习通常比蒙特卡罗方法收敛得更快。
案例分析
以下通过一个简单的棋盘环境来说明时序差分学习的应用。在此环境中,我们有一个简单的3x3的棋盘,智能体的目标是达到目标状态(例如右下角),而每一步移动都有固定的奖励(例如-1),成功抵达目标状态则给予+1的奖励。
import numpy as np
# 初始化环境参数
rows, cols = 3, 3
goal_state = (2, 2)
state_values = np.zeros((rows, cols))
alpha = 0.1 # 学习率
gamma = 0.9 # 折扣因子
def get_reward(state):
"""返回给定状态的奖励"""
return 1 if state == goal_state else -1
def update_value(state, next_state):
"""更新当前状态的价值估计"""
reward = get_reward(next_state)
state_values[state] = state_values[state] + alpha * (reward + gamma * state_values[next_state] - state_values[state])
# 示例:从(0, 0)状态开始
for episode in range(100):
current_state = (0, 0)
while current_state != goal_state:
# 模拟移动到下一个状态(这里简化为向右或向下移动)
next_state = (min(current_state[0] + 1, 2), min(current_state[1] + 1, 2)) # 向右下随机移动
update_value(current_state, next_state)
current_state = next_state
print("状态价值估计:")
print(state_values)
在上述代码中,智能体从 0, 0 状态出发,通过不断更新其状态价值,最终收敛到目标状态 2, 2 的最佳路径价值。
复习《时序差分学习介绍》时,建议把关键概念、操作步骤和可见结果放在同一页里回看。
练习《时序差分学习介绍》时,建议把输入条件、处理动作和可见结果写在一起,方便下次复查。
总结
时序差分学习通过结合即刻奖励和估计的未来奖励,为强化学习提供了一种高效的在线学习方法。在后续的教程中,我们将进一步探索具体实现和应用,特别是 SARSA 算法。这些都是基于时序差分学习的重要概念,帮助智能体实现更优的策略学习。
继续阅读
从这篇继续找到相关教程
常见问题
读前先确认这三点
时序差分学习介绍适合谁读?
这是 强化学习入门 系列第 13 / 28 篇,适合正在学习强化学习入门,并且需要把概念落到操作步骤或判断标准里的读者。
读这篇强化学习入门教程要多久?
按中文技术文章阅读速度估算,通读大约 4 分钟;如果要跟着复现,建议把命令、配置和结果检查分开做。
这篇文章里的图文节点怎么用?
正文里有 6 个图文节点,可以先用它们抓住流程、配置和判断点,再回到对应段落细读。
分享文章
转发到常用平台
微信/朋友圈可先复制链接
相关教程
从相近问题继续读
继续阅读