第2课马尔可夫决策过程 MDP

学习笔记强化学习 MDP

创建于 2026-05-09

第2课：马尔可夫决策过程 MDP

0. 一句话理解

MDP 是对“智能体在环境中连续做决策”这件事的标准数学建模。

1. MDP 的五元组

一个 MDP 通常记为：

$$ (\mathcal{S}, \mathcal{A}, P, R, \gamma) $$

$\mathcal{S}$：状态集合

所有可能状态的集合。

$\mathcal{A}$：动作集合

所有可能动作的集合。

$P$：状态转移概率

$$ P(s' \mid s,a) $$ 表示当前在状态 $s$ 下执行动作 $a$ 后，到达下一状态 $s'$ 的概率。

$R$：奖励函数

表示在某状态下做某动作（并可能到达某下一状态）时得到的奖励。

$\gamma$：折扣因子

$$ 0$le \gamma <1 $$ 控制对未来奖励的重视程度。

2. “马尔可夫”到底是什么意思

马尔可夫性的核心是：

未来只依赖当前状态，不依赖更早历史。

更准确地说：

如果当前状态 $s_t$ 已经包含了做决策需要的全部信息，那么未来的演化只与 $s_t$ 和 $a_t$ 有关，而不需要显式依赖更久远的历史。

3. 马尔可夫性不是世界自带的，而是状态定义出来的

这是非常重要的一点。

例子

如果你只把“机器人位置”当作状态，而不记录速度，那么下一步发生什么可能仍受历史影响。
此时状态定义不完整。

如果把： - 位置 - 速度 - 朝向 - 传感器读数

都纳入状态，那么当前状态就更接近满足马尔可夫性。

Important

马尔可夫性依赖于你对状态的定义是否足够完整。

4. MDP 中的交互过程

强化学习在 MDP 中可写成：

当前状态 $s_t$
智能体选动作 $a_t$
环境按 $P(s_{t+1}\mid s_t,a_t)$ 转移
给出奖励 $r_t$
进入下一状态 $s_{t+1}$

这个过程不断重复。

与 02-第1课强化学习在解决什么问题#6. 强化学习最小闭环完全对应。

5. $s_{t+1}$ 与 $s'$ 的区别

这是初学时最容易混淆的点之一。

$s_{t+1}$

表示在某条实际轨迹里，第 $t+1$ 时刻真正发生的状态。

$s'$

表示一个“泛指的可能下一状态”的占位符，常出现在求和、求期望、转移概率中。

例如：

$$ P(s' \mid s,a) $$

这里的 $s'$ 不是某个特定时刻的真实状态，而是“所有可能下一状态中的一个变量名”。

关联：07-强化学习公式与符号说明#3. s_{t+1} 与 s' 的区别

6. 策略与环境转移的区别

策略 $\pi(a\mid s)$

智能体在状态 $s$ 下怎么选动作。

转移概率 $P(s'\mid s,a)$

环境在状态 $s$ 下接收到动作 $a$ 后，如何演化到下一状态。

Note

一个是“你怎么做”，一个是“世界怎么响应你”。

7. 最优策略

强化学习的目标是找到一个策略 $\pi^*$，使得：

从任意状态出发，长期期望累计回报最大。

这就是“最优策略”。

更具体的价值视角见： - 04-第3课回报价值函数与Q函数#4. 最优价值函数

8. 轨迹与终止状态

轨迹 trajectory

一条完整交互序列：

$$ s_0,a_0,r_0,s_1,a_1,r_1,s_2,\dots $$

终止状态 terminal state

比如： - 游戏结束 - 到达目标 - 失败结束 - 一局交互结束

9. 经典例子：Grid World

假设一个网格世界：

状态：格子位置
动作：上下左右
奖励：
普通走一步：-1
到终点：+10
掉陷阱：-10
折扣因子：0.9

那么这就是一个标准 MDP。

这个例子之后会反复出现在： - 04-第3课回报价值函数与Q函数 - 05-第4课 Bellman方程 - 06-第5课动态规划策略评估策略迭代价值迭代

10. 易混淆点

状态不等于观测

理论中的状态 $s$ 常假设信息完备；实际里你常拿到的是观测 $o$，不一定完整。

MDP 不等于真实世界

MDP 是一个建模框架，不是现实世界本身。现实往往更复杂。

11. 我的理解（可补充）

MDP 像是 RL 的“坐标系”
不用它时，RL 只是“试错故事”
用了它，RL 才变成一个可推导、可分析、可设计算法的问题

12. 复习问题

MDP 五元组分别是什么？
马尔可夫性是什么意思？
为什么说马尔可夫性取决于状态定义？
策略和转移概率有什么区别？
$s_{t+1}$ 与 $s'$ 有什么不同？

13. 前后关联

前置

02-第1课强化学习在解决什么问题

第2课：马尔可夫决策过程 MDP

0. 一句话理解

1. MDP 的五元组

$\mathcal{S}$：状态集合

$\mathcal{A}$：动作集合

$P$：状态转移概率

$R$：奖励函数

$\gamma$：折扣因子

2. “马尔可夫”到底是什么意思

3. 马尔可夫性不是世界自带的，而是状态定义出来的

例子

4. MDP 中的交互过程

5. $s_{t+1}$ 与 $s'$ 的区别

$s_{t+1}$

$s'$

6. 策略与环境转移的区别

策略 $\pi(a\mid s)$

转移概率 $P(s'\mid s,a)$

7. 最优策略

8. 轨迹与终止状态

轨迹 trajectory

终止状态 terminal state

9. 经典例子：Grid World

10. 易混淆点

状态不等于观测

MDP 不等于真实世界

11. 我的理解（可补充）

12. 复习问题

13. 前后关联

前置

后续