5 Markov决策过程之状态、动作和奖励

Q: Markov决策过程之状态、动作和奖励适合谁读？

这是 强化学习入门 系列第 5 / 28 篇，适合正在学习强化学习入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-15

最近更新: 2026-06-04

分类: 强化学习

预计阅读: 3 分钟

阅读次数: 0

系列进度

强化学习入门 · 第 5 / 28 篇

上一篇Markov决策过程（MDP）的定义与基本要素下一篇强化学习从零学教程系列：Markov决策过程之折扣因子与价值函数

预计阅读3 分钟

结构重点7 个

图文要点6 张

正文规模1.4k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 7 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步一、状态（State）02第 2 步二、动作（Action）03第 3 步三、奖励（Reward）04第 4 步总结

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线Markov决策过程之状态、动作和奖励结构图跳到对应正文位置

图 02 · 步骤Markov决策过程之状态、动作和奖励核对图跳到对应正文位置

图 03 · 配置强化学习状态动作奖励判断卡跳到对应正文位置

图 04 · 判断强化学习阅读地图卡跳到对应正文位置

图 05 · 复盘Markov决策过程之状态、动作和奖励应用复盘卡跳到对应正文位置

图 06 · 细节Markov决策过程之状态、动作和奖励应用检查卡跳到对应正文位置

强化学习的核心是智能体在环境中试错，学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「一、状态 -> 案例：迷宫问题 -> 二、动作 -> 动作的选择」建立结构，再回到正文里的代码、案例或指标做验证。

读完后，用一个真实小任务复查：输入是什么，处理环节在哪里，输出是否可验收；失败时先查「一、状态」，再查「案例：迷宫问题」。

在本篇教程中，我们将深入探讨Markov决策过程（MDP）的核心组成部分：状态、动作和奖励。这些元素是理解MDP的基础，也是强化学习中智能体决策的支柱。

一、状态（State）

在MDP中，状态是环境在某一时刻的描述。它应该能够提供足够的信息，以便智能体做出合理的决策。一个状态可以是任何对环境的表征，可能包括某个游戏中的棋盘状况、机器人在地图上的位置等。

定义强化学习问题时，先写清状态包含什么、动作能做什么、奖励如何计算。奖励设计会直接影响策略。

案例：迷宫问题

假设我们有一个简单的迷宫，迷宫的不同位置可以表示为不同的状态。例如，迷宫由一个 $3 \times 3$ 的网格构成，每个格子表示一个状态：

(0, 0) (0, 1) (0, 2)
(1, 0) (1, 1) (1, 2)
(2, 0) (2, 1) (2, 2)

在这个迷宫中，智能体的位置就是当前状态。

二、动作（Action）

动作是智能体可以在特定状态下采取的选择。在某一状态下，智能体可以执行一个或多个可用的动作，来改变其状态。每个动作都有可能导致智能体转移到另一个状态。

《Markov决策过程之状态、动作和奖励》可以按“场景、概念、动作、结果”来读。先把这四件事对齐，再回到正文里的参数、代码或流程。

动作的选择

在迷宫的例子中，如果智能体在状态 $(1, 1)$ ，它可以选择的动作可能是上（Up）、下（Down）、左（Left）和右（Right）。每个动作都会导致状态的变化。例如：

执行动作上从 $(1, 1)$ 到 $(0, 1)$
执行动作下从 $(1, 1)$ 到 $(2, 1)$
执行动作左从 $(1, 1)$ 到 $(1, 0)$
执行动作右从 $(1, 1)$ 到 $(1, 2)$

可以使用一个字典来表示这些动作及其对应的状态转移，如下所示：

action_transition = {
    (1, 1): {
        'Up': (0, 1),
        'Down': (2, 1),
        'Left': (1, 0),
        'Right': (1, 2)
    }
}

三、奖励（Reward）

在MDP中，奖励是环境给予智能体的反馈，用于评估特定状态与动作的组合。奖励可以是正值、负值或零，反映了智能体在某个状态下执行某个动作的好坏。通过奖励，智能体能够学习哪些行为是有益的，哪些是有害的。

奖励的设计

在迷宫中，假设智能体到达出口会获得奖励+10，而走入死胡同会获得奖励-5，其他状态的奖励都是0。我们可以使用一个奖励函数来定义这一过程：

rewards = {
    (0, 0): 0,
    (0, 1): 0,
    (0, 2): 0,
    (1, 0): 0,
    (1, 1): 0,
    (1, 2): 0,
    (2, 0): -5,
    (2, 1): 0,
    (2, 2): 10
}

复习《Markov决策过程之状态、动作和奖励》时，建议把关键概念、操作步骤和可见结果放在同一页里回看。

练习《Markov决策过程之状态、动作和奖励》时，建议把输入条件、处理动作和可见结果写在一起，方便下次复查。

总结

本篇教程中，我们详细介绍了Markov决策过程的三个关键要素：状态、动作和奖励。通过迷宫问题的示例，我们展示了这些要素是如何相互作用的。智能体在不同的状态下，通过执行不同的动作获取相应的奖励，从而学习到最优策略，为下一步的学习打下了基础。

在接下来的上一篇教程中，我们将讨论折扣因子与价值函数，进一步探讨如何评估和优化智能体的决策过程。

继续阅读

从这篇继续找到相关教程

AI 教程总索引

强化学习入门教程目录28 篇按顺序阅读本系列图文节点6 个位置可直达 AI 图文教程索引按主题继续找可复现教程 AI 图文教程全量清单浏览全部已整理教程跨领域 AI 文章入口继续找其它技术系列里的 AI 章节 AI 教程图片索引6 张图文节点

常见问题

读前先确认这三点

Markov决策过程之状态、动作和奖励适合谁读？

这是强化学习入门系列第 5 / 28 篇，适合正在学习强化学习入门，并且需要把概念落到操作步骤或判断标准里的读者。

读这篇强化学习入门教程要多久？

按中文技术文章阅读速度估算，通读大约 3 分钟；如果要跟着复现，建议把命令、配置和结果检查分开做。

这篇文章里的图文节点怎么用？

正文里有 6 个图文节点，可以先用它们抓住流程、配置和判断点，再回到对应段落细读。

分享文章

微信/朋友圈可先复制链接

微博 X LinkedIn Facebook Telegram 邮件

继续找到相关 AI 教程

返回栏目

继续学习强化学习从零学教程系列：Markov决策过程之折扣因子与价值函数强化学习入门 · 第 6 篇 · 6 张图 · 1.7k 字

图文补读强化学习核心idea总结强化学习入门 · 6 张图 · 2.3k 字，适合回看流程和判断点。AI 教程总索引全部 AI 教程文章按大模型、Agent、本地部署、机器学习和工程实践继续查找相关文章。AI 图文教程索引按流程和判断点找教程先看每篇文章里的流程、配置和复盘节点，再回到原文细读。跨领域 AI 入口其它技术系列里的 AI 章节从大数据、爬虫、量子计算和 Spark 章节继续找 AI 内容。AI 教程图片索引按图查找教程文章从流程图、配置图和判断卡片直接定位对应文章。强化学习入门目录强化学习入门完整目录按顺序查看全部小节、图文密度和后续阅读路线。

5 Markov决策过程之状态、动作和奖励

强化学习入门 · 第 5 / 28 篇

这篇内容怎么整理

先按这条路线读

先看本文图文节点

一、状态（State）

案例：迷宫问题

二、动作（Action）

动作的选择

三、奖励（Reward）

奖励的设计

总结

从这篇继续找到相关教程

读前先确认这三点

Markov决策过程之状态、动作和奖励适合谁读？

读这篇强化学习入门教程要多久？

这篇文章里的图文节点怎么用？

继续找到相关 AI 教程

读者留言

留言列表

5 Markov决策过程之状态、动作和奖励

强化学习入门 · 第 5 / 28 篇

这篇内容怎么整理

先按这条路线读

先看本文图文节点

一、状态（State）

案例：迷宫问题

二、动作（Action）

动作的选择

三、奖励（Reward）

奖励的设计

总结

从这篇继续找到相关教程

读前先确认这三点

Markov决策过程之状态、动作和奖励适合谁读？

读这篇强化学习入门教程要多久？

这篇文章里的图文节点怎么用？

转发到常用平台

从相近问题继续读

继续找到相关 AI 教程

读者留言

留言列表