🤖强化学习入门
AI 教程网络
从这个系列继续发现相关教程
当前专题已经接入 AI 教程总索引,读者可以从这里回到完整目录,也可以继续查看模型、Agent 和工具实测入口。
专题导读
强化学习入门学习地图
先按顺序读前几篇建立框架,再用图文要点回看流程、配置和判断点;遇到工具类内容,可以直接跳到对应小节做复现。
阅读路径
按这三段读更顺
每个系列都可以先抓主线,再挑重点文章复现,最后回到问题边界和检查表。
先建立框架
第 1 - 8 篇 · 8 个小节
适合先读概念、环境和整体流程,避免一上来就被细节打散。
再动手复现
第 9 - 21 篇 · 13 个小节
集中看配置、命令、调用链和结果判断,把正文里的图文要点串起来。
图文优先
重点图文入口
想先判断这套内容是否值得继续读,可以从图文信息更密的几篇开始。
1 强化学习导论:强化学习的基本概念和历史
第 1 篇6 张图1.8k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「基本概念 -> 关键组成部分 -> 奖励和惩罚 -> 历史背景」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习2 强化学习导论之强化学习与监督学习的区别
第 2 篇6 张图1.5k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「强化学习与监督学习的基本定义 -> 主要区别 -> 学习目标 -> 数据类型」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习3 强化学习导论之强化学习的应用领域
第 3 篇6 张图1.5k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「游戏 -> 案例分析:AlphaGo -> 机器人控制 -> 案例分析:仿人机器人」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习4 Markov决策过程(MDP)的定义与基本要素
第 4 篇6 张图1.6k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「什么是MDP? -> MDP的数学形式化 -> 示例:简化的格子世界 -> 状态动作」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习5 Markov决策过程之状态、动作和奖励
第 5 篇6 张图1.4k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「一、状态 -> 案例:迷宫问题 -> 二、动作 -> 动作的选择」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习6 强化学习从零学教程系列:Markov决策过程之折扣因子与价值函数
第 6 篇6 张图1.7k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「价值函数 -> 折扣因子 -> 状态动作 -> 奖励回报」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习7 动态规划的基本思想和框架
第 7 篇6 张图1.5k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「动态规划的基本思想 -> 案例分析:最短路径问题 -> 动态规划的框架 -> 动态规划的实现」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习8 强化学习从零学教程系列之动态规划之值迭代算法
第 8 篇6 张图1.7k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「值迭代算法概述 -> 算法步骤 -> 示例:网格世界 -> 问题描述」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习9 动态规划之策略迭代算法
第 9 篇6 张图1.3k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「策略与价值 -> 算法步骤 -> 案例:格子世界 -> 环境设定」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习10 蒙特卡罗方法的基本原理
第 10 篇6 张图1.9k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「蒙特卡罗方法的基本概念 -> 一、基本要素 -> 二、蒙特卡罗估计 -> 三、算法步骤」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习11 蒙特卡罗控制方法概述
第 11 篇6 张图1.4k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「蒙特卡罗控制的基本概念 -> 蒙特卡罗控制的实现步骤 -> 步骤 1: 生成轨迹 -> 步骤 2: 评估$Q$值函数」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习12 强化学习中的蒙特卡罗方法:区间估计
第 12 篇6 张图1.5k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「区间估计的重要性 -> 蒙特卡罗方法的回顾 -> 确定区间估计 -> 置信区间的构建」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习13 时序差分学习介绍
第 13 篇6 张图1.4k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「时序差分学习的基本概念 -> 时序差分学习的工作原理 -> TD学习的优点 -> 状态动作」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习14 强化学习之SARSA算法
第 14 篇6 张图1.6k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「SARSA算法的基本原理 -> SARSA算法的特点 -> 实际案例 -> 迷宫环境的设置」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习15 时序差分学习之Q学习的原理与实现
第 15 篇6 张图1.5k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「Q学习的基本原理 -> Q值更新公式 -> Q学习的特点 -> 算法实现」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习16 Q学习的详细讲解
第 16 篇6 张图1.7k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「Q学习概述 -> Q值的更新 -> Q学习的工作流程 -> 例子:迷宫问题」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习17 强化学习之Q学习:探索与利用的权衡
第 17 篇6 张图1.6k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「探索与利用的概念 -> 探索策略 -> ε-greedy 策略 -> Decaying ε-greedy 策略」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习18 近似Q学习
第 18 篇6 张图1.5k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「何为近似Q学习? -> 函数逼近的引入 -> 近似Q学习的步骤 -> 算法伪代码」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习19 深度强化学习之深度学习在强化学习中的应用
第 19 篇6 张图1.7k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「深度学习与强化学习的结合 -> 状态表示的学习 -> 深度Q网络 -> 实现 DQN」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习20 深度强化学习之DQN算法
第 20 篇6 张图1.7k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「DQN算法概述 -> Q值函数 -> DQN的基本框架 -> 经验回放」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习21 深度强化学习之经验回放
第 21 篇6 张图1.6k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「什么是经验回放? -> 经验回放的基本形式 -> 经验回放的实现 -> 使用经验回放」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习22 策略梯度的基本概念
第 22 篇6 张图1.6k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「强化学习中的策略 -> 策略的参数化 -> 策略梯度 -> 策略梯度定理」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习23 REINFORCE算法
第 23 篇6 张图1.4k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「REINFORCE算法概述 -> 算法步骤 -> 案例:CartPole环境中的REINFORCE实现 -> 状态动作」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习24 强化学习中的优势函数
第 24 篇6 张图1.5k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「什么是优势函数? -> 优势函数的应用 -> 示例:利用优势函数改善策略学习 -> 优势函数的优势」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习25 强化学习在游戏中的应用
第 25 篇6 张图2.0k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「案例 1:AlphaGo -> 如何实现? -> 成果 -> 案例 2:OpenAI Five」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习26 应用案例之强化学习在机器人中的应用
第 26 篇6 张图1.6k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「强化学习在机器人的基本应用场景 -> 经典案例:机器手臂的抓取任务 -> 问题描述 -> 强化学习模型设计」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习27 强化学习的未来发展
第 27 篇6 张图1.7k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「自适应智能系统 -> 案例:智能温控 -> 多智能体系统 -> 案例:无人驾驶汽车」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习0 强化学习核心idea总结
第 28 篇6 张图2.3k 字强化学习的核心是智能体在环境中试错,学习时要同时看状态、动作、奖励和策略更新。阅读时可以按「一、什么是强化学习? -> 二、强化学习的目标 -> 三、核心方法分类 -> 值函数方法」建立结构,再回到正文里的代码、案例或指标做验证。
AI强化学习