4 Markov决策过程（MDP）的定义与基本要素

Q: Markov决策过程（MDP）的定义与基本要素适合谁读？

这是 强化学习入门 系列第 4 / 28 篇，适合正在学习强化学习入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-15

最近更新: 2026-06-04

分类: 强化学习

预计阅读: 4 分钟

阅读次数: 0

系列进度

强化学习入门 · 第 4 / 28 篇

上一篇强化学习导论之强化学习的应用领域下一篇Markov决策过程之状态、动作和奖励

预计阅读4 分钟

结构重点4 个

图文要点6 张

正文规模1.6k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 4 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步什么是MDP？02第 2 步MDP的数学形式化 03第 3 步总结

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线Markov决策过程（MDP）的定义与基本要素结构图跳到对应正文位置

图 02 · 步骤Markov决策过程（MDP）的定义与基本要素核对图跳到对应正文位置

图 03 · 配置MDP基本要素判断卡跳到对应正文位置

图 04 · 判断强化学习实践复盘卡跳到对应正文位置

图 05 · 复盘Markov决策过程（MDP）的定义与基本要素应用复盘卡跳到对应正文位置

图 06 · 细节Markov决策过程（MDP）的定义与基本要素应用检查卡跳到对应正文位置

强化学习的核心是智能体在环境中试错，学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「什么是MDP？ -> MDP的数学形式化 -> 示例：简化的格子世界 -> 状态动作」建立结构，再回到正文里的代码、案例或指标做验证。

读完后，用一个真实小任务复查：输入是什么，处理环节在哪里，输出是否可验收；失败时先查「什么是MDP？」，再查「MDP的数学形式化」。

在上一篇文章中，我们探讨了强化学习的应用领域，了解到强化学习在多种实际问题中的广泛应用，例如游戏、机器人控制、财务决策等。而在强化学习的核心中，“Markov决策过程”（Markov Decision Process，简称MDP）是理解强化学习算法的重要基础。本文将详细介绍MDP的定义及其基本要素。

什么是MDP？

Markov决策过程是一个数学框架，用于描述在某一环境中，智能体（agent）如何通过选择动作来最大化某一累积奖励。MDP提供了一种形式化的方式来建模智能体与环境之间的交互。

理解马尔可夫决策过程时，先把状态、动作、转移概率、奖励和策略列出来。要素齐全，问题才算定义清楚。

一个MDP由以下五个基本要素定义：

状态集（S）：代表系统可能的状态集合。智能体在每个时间步骤上都处于某个状态中。
动作集（A）：代表智能体在每个状态下可以采取的动作集合。动作决定了智能体的行为，进而影响环境的状态。
状态转移概率（P）：定义为在状态 $s_t$ 下采取动作 $a_t$ 后转移到状态 $s_{t+1}$ 的概率，记作 $P(s_{t+1} | s_t, a_t)$ 。这体现了环境的动态性和不确定性。
奖励函数（R）：在状态 $s_t$ 下采取动作 $a_t$ 后，获得的即时奖励，记作 $R(s_t, a_t)$ . 奖励函数为智能体的学习过程提供反馈信息。
折扣因子（ $\gamma$ ）：一个在区间 $[0, 1]$ 上的值，决定了未来奖励的当前价值。折扣因子越接近1，未来奖励在当前的影响越大；越接近0，则倾向于关注短期奖励。

MDP的数学形式化

结合以上基本要素，MDP可以用五元组表示为：

看《Markov决策过程（MDP）的定义与基本要素》时，先把图中的问题、关键词、操作和验收标准对上，再读正文会更省力。读完后，最好能用自己的项目重新讲一遍。

MDP = (S, A, P, R, \gamma)

示例：简化的格子世界

考虑一个简单的“格子世界”作为案例。假设有一个5x5的网格，智能体可以在其中移动。我们来看看如何用MDP来描述这个环境。

状态集 $S$ ：该状态集包含25个状态，分别对应网格中的每一个格子。
动作集 $A$ ：智能体在每个格子中可以选择的动作包括“上”、“下”、“左”、“右”四种移动。
状态转移概率 $P$ ：假设智能体在状态 $s_t$ 下选择“右”动作，概率1.0转移到状态 $s_{t+1}$ （即下一个格子），如果边界限制，则状态保持不变。
奖励函数 $R$ ：智能体在到达某个目标格（例如位置(4, 4)）时获得奖励+10；在每个时间步骤上移动的成本为-1。因此，对于每一步 $R(s, a) = -1$ ，在到达目标后是 $R(s, a) = 10$ 。
折扣因子 $\gamma$ ：设定为0.9，以重视更长期的奖励。