第2课 马尔可夫决策过程 MDP

学习笔记 强化学习 MDP
创建于 2026-05-09
目录

第2课:马尔可夫决策过程 MDP

0. 一句话理解

MDP 是对“智能体在环境中连续做决策”这件事的标准数学建模。


1. MDP 的五元组

一个 MDP 通常记为:

$$ (\mathcal{S}, \mathcal{A}, P, R, \gamma) $$

$\mathcal{S}$:状态集合

所有可能状态的集合。

$\mathcal{A}$:动作集合

所有可能动作的集合。

$P$:状态转移概率

$$ P(s' \mid s,a) $$ 表示当前在状态 $s$ 下执行动作 $a$ 后,到达下一状态 $s'$ 的概率。

$R$:奖励函数

表示在某状态下做某动作(并可能到达某下一状态)时得到的奖励。

$\gamma$:折扣因子

$$ 0$le \gamma <1 $$ 控制对未来奖励的重视程度。


2. “马尔可夫”到底是什么意思

马尔可夫性的核心是:

未来只依赖当前状态,不依赖更早历史。

更准确地说:

如果当前状态 $s_t$ 已经包含了做决策需要的全部信息,那么未来的演化只与 $s_t$ 和 $a_t$ 有关,而不需要显式依赖更久远的历史。


3. 马尔可夫性不是世界自带的,而是状态定义出来的

这是非常重要的一点。

例子

如果你只把“机器人位置”当作状态,而不记录速度,那么下一步发生什么可能仍受历史影响。
此时状态定义不完整。

如果把: - 位置 - 速度 - 朝向 - 传感器读数

都纳入状态,那么当前状态就更接近满足马尔可夫性。

Important

马尔可夫性依赖于你对状态的定义是否足够完整。

4. MDP 中的交互过程

强化学习在 MDP 中可写成:

  1. 当前状态 $s_t$
  2. 智能体选动作 $a_t$
  3. 环境按 $P(s_{t+1}\mid s_t,a_t)$ 转移
  4. 给出奖励 $r_t$
  5. 进入下一状态 $s_{t+1}$

这个过程不断重复。

02-第1课 强化学习在解决什么问题#6. 强化学习最小闭环 完全对应。


5. $s_{t+1}$ 与 $s'$ 的区别

这是初学时最容易混淆的点之一。

$s_{t+1}$

表示在某条实际轨迹里,第 $t+1$ 时刻真正发生的状态。

$s'$

表示一个“泛指的可能下一状态”的占位符,常出现在求和、求期望、转移概率中。

例如:

$$ P(s' \mid s,a) $$

这里的 $s'$ 不是某个特定时刻的真实状态,而是“所有可能下一状态中的一个变量名”。

关联:07-强化学习公式与符号说明#3. s_{t+1} 与 s' 的区别


6. 策略与环境转移的区别

策略 $\pi(a\mid s)$

智能体在状态 $s$ 下怎么选动作。

转移概率 $P(s'\mid s,a)$

环境在状态 $s$ 下接收到动作 $a$ 后,如何演化到下一状态。

Note

一个是“你怎么做”,一个是“世界怎么响应你”。

7. 最优策略

强化学习的目标是找到一个策略 $\pi^*$,使得:

从任意状态出发,长期期望累计回报最大。

这就是“最优策略”。

更具体的价值视角见: - 04-第3课 回报 价值函数与Q函数#4. 最优价值函数


8. 轨迹与终止状态

轨迹 trajectory

一条完整交互序列:

$$ s_0,a_0,r_0,s_1,a_1,r_1,s_2,\dots $$

终止状态 terminal state

比如: - 游戏结束 - 到达目标 - 失败结束 - 一局交互结束


9. 经典例子:Grid World

假设一个网格世界:

  • 状态:格子位置
  • 动作:上下左右
  • 奖励:
  • 普通走一步:-1
  • 到终点:+10
  • 掉陷阱:-10
  • 折扣因子:0.9

那么这就是一个标准 MDP。

这个例子之后会反复出现在: - 04-第3课 回报 价值函数与Q函数 - 05-第4课 Bellman方程 - 06-第5课 动态规划 策略评估 策略迭代 价值迭代


10. 易混淆点

状态不等于观测

理论中的状态 $s$ 常假设信息完备;实际里你常拿到的是观测 $o$,不一定完整。

MDP 不等于真实世界

MDP 是一个建模框架,不是现实世界本身。现实往往更复杂。


11. 我的理解(可补充)

  • MDP 像是 RL 的“坐标系”
  • 不用它时,RL 只是“试错故事”
  • 用了它,RL 才变成一个可推导、可分析、可设计算法的问题

12. 复习问题

  1. MDP 五元组分别是什么?
  2. 马尔可夫性是什么意思?
  3. 为什么说马尔可夫性取决于状态定义?
  4. 策略和转移概率有什么区别?
  5. $s_{t+1}$ 与 $s'$ 有什么不同?

13. 前后关联

前置

后续