5 Markov决策过程之状态、动作和奖励
系列进度
强化学习入门 · 第 5 / 28 篇
整理说明
这篇内容怎么整理
郭震 · 2026-06-04
阅读路线
先按这条路线读
先抓住主线,再回到代码、配置和图文细节,读起来会更稳。
强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「一、状态 -> 案例:迷宫问题 -> 二、动作 -> 动作的选择」建立结构,再回到正文里的代码、案例或指标做验证。
读完后,用一个真实小任务复查:输入是什么,处理环节在哪里,输出是否可验收;失败时先查「一、状态」,再查「案例:迷宫问题」。
在本篇教程中,我们将深入探讨Markov决策过程(MDP)的核心组成部分:状态、动作和奖励。这些元素是理解MDP的基础,也是强化学习中智能体决策的支柱。
一、状态(State)
在MDP中,状态是环境在某一时刻的描述。它应该能够提供足够的信息,以便智能体做出合理的决策。一个状态可以是任何对环境的表征,可能包括某个游戏中的棋盘状况、机器人在地图上的位置等。
定义强化学习问题时,先写清状态包含什么、动作能做什么、奖励如何计算。奖励设计会直接影响策略。
案例:迷宫问题
假设我们有一个简单的迷宫,迷宫的不同位置可以表示为不同的状态。例如,迷宫由一个的网格构成,每个格子表示一个状态:
(0, 0) (0, 1) (0, 2)
(1, 0) (1, 1) (1, 2)
(2, 0) (2, 1) (2, 2)
在这个迷宫中,智能体的位置就是当前状态。
二、动作(Action)
动作是智能体可以在特定状态下采取的选择。在某一状态下,智能体可以执行一个或多个可用的动作,来改变其状态。每个动作都有可能导致智能体转移到另一个状态。
《Markov决策过程之状态、动作和奖励》可以按“场景、概念、动作、结果”来读。先把这四件事对齐,再回到正文里的参数、代码或流程。
动作的选择
在迷宫的例子中,如果智能体在状态,它可以选择的动作可能是上(Up)、下(Down)、左(Left)和右(Right)。每个动作都会导致状态的变化。例如:
- 执行动作
上从到 - 执行动作
下从到 - 执行动作
左从到 - 执行动作
右从到
可以使用一个字典来表示这些动作及其对应的状态转移,如下所示:
action_transition = {
(1, 1): {
'Up': (0, 1),
'Down': (2, 1),
'Left': (1, 0),
'Right': (1, 2)
}
}
三、奖励(Reward)
在MDP中,奖励是环境给予智能体的反馈,用于评估特定状态与动作的组合。奖励可以是正值、负值或零,反映了智能体在某个状态下执行某个动作的好坏。通过奖励,智能体能够学习哪些行为是有益的,哪些是有害的。
奖励的设计
在迷宫中,假设智能体到达出口会获得奖励+10,而走入死胡同会获得奖励-5,其他状态的奖励都是0。我们可以使用一个奖励函数来定义这一过程:
rewards = {
(0, 0): 0,
(0, 1): 0,
(0, 2): 0,
(1, 0): 0,
(1, 1): 0,
(1, 2): 0,
(2, 0): -5,
(2, 1): 0,
(2, 2): 10
}
复习《Markov决策过程之状态、动作和奖励》时,建议把关键概念、操作步骤和可见结果放在同一页里回看。
练习《Markov决策过程之状态、动作和奖励》时,建议把输入条件、处理动作和可见结果写在一起,方便下次复查。
总结
本篇教程中,我们详细介绍了Markov决策过程的三个关键要素:状态、动作和奖励。通过迷宫问题的示例,我们展示了这些要素是如何相互作用的。智能体在不同的状态下,通过执行不同的动作获取相应的奖励,从而学习到最优策略,为下一步的学习打下了基础。
在接下来的上一篇教程中,我们将讨论折扣因子与价值函数,进一步探讨如何评估和优化智能体的决策过程。
继续阅读
从这篇继续找到相关教程
常见问题
读前先确认这三点
Markov决策过程之状态、动作和奖励适合谁读?
这是 强化学习入门 系列第 5 / 28 篇,适合正在学习强化学习入门,并且需要把概念落到操作步骤或判断标准里的读者。
读这篇强化学习入门教程要多久?
按中文技术文章阅读速度估算,通读大约 3 分钟;如果要跟着复现,建议把命令、配置和结果检查分开做。
这篇文章里的图文节点怎么用?
正文里有 6 个图文节点,可以先用它们抓住流程、配置和判断点,再回到对应段落细读。
分享文章
转发到常用平台
微信/朋友圈可先复制链接
相关教程
从相近问题继续读
继续阅读