第3课 回报 价值函数与Q函数

学习笔记 强化学习 价值函数
创建于 2026-05-09
目录

第3课:回报、价值函数与 Q 函数

0. 一句话理解

奖励只告诉你“眼前这一步”,价值函数告诉你“从现在往后,整体前景怎么样”。


1. 回报 Return

从时间步 $t$ 开始的回报定义为:

$$ G_t=r_t+\gamma r_{t+1}+\gamma^2 r_{t+2}+\cdots $$

它表示:

从当前时刻开始,未来一串奖励的折扣累计和。

解释

  • $r_t$:当前奖励
  • $\gamma$:折扣因子
  • 越远的奖励,权重越小

为什么需要回报

因为 RL 最终关心的是长期结果,而不是单步奖励。

关联:05-第4课 Bellman方程#2. 回报的递推形式


2. 状态价值函数 $V^\pi(s)$

定义:

$$ V^\pi(s)=\mathbb{E}_\pi[G_t \mid s_t=s] $$

含义:

当前处于状态 $s$,并且之后一直按照策略 $\pi$ 行动时,未来期望回报是多少。

直觉

它衡量的是:

这个状态有多有前途。

关键点

  • 它是期望值
  • 它依赖策略 $\pi$
  • 它是“状态层面”的长期评估

3. 动作价值函数 $Q^\pi(s,a)$

定义:

$$ Q^\pi(s,a)=\mathbb{E}_\pi[G_t \mid s_t=s,a_t=a] $$

含义:

当前在状态 $s$ 下先做动作 $a$,之后再按策略 $\pi$ 行动时,未来期望回报是多少。

直觉

它衡量的是:

在状态 $s$ 下做动作 $a$ 这件事到底值不值。

与 $V^\pi(s)$ 的区别

  • $V^\pi(s)$:这个状态整体怎样
  • $Q^\pi(s,a)$:这个状态下的某个具体动作怎样

4. 最优价值函数

最优状态价值

$$ V^*(s)=\max_\pi V^\pi(s) $$

表示从状态 $s$ 出发,在所有可能策略中能够达到的最大期望回报。

最优动作价值

$$ Q^*(s,a)=\max_\pi Q^\pi(s,a) $$

表示在状态 $s$ 下先做动作 $a$,之后都按最优方式行动时的最大期望回报。

决策意义

如果已知 $Q^*(s,a)$,则最优动作可写为:

$$ a^=$arg\max_a Q^(s,a) $$


5. 奖励与价值的区别

这是最重要的区分之一。

奖励 reward

环境给你的即时反馈,是单步的。

价值 value

从当前往后看,未来长期累计回报的期望,是长期的。

Important

没有即时奖励,不代表没有价值。 某一步可能当前奖励为 0,但能带你进入高价值状态,因此其 Q 值依然很高。

6. $V^\pi(s)$ 与 $Q^\pi(s,a)$ 的关系

在离散动作情况下:

$$ V^\pi(s)=\sum_a \pi(a\mid s)$,Q^\pi(s,a) $$

解释:

一个状态的价值,等于在这个状态下按策略可能采取的各个动作价值的加权平均。

这里: - $\pi(a\mid s)$ 是概率 - $Q^\pi(s,a)$ 是动作价值 - 结果是状态价值

符号易混淆时可回看:07-强化学习公式与符号说明#2. π 到底是什么


7. 为什么 Q 函数对控制特别重要

做决策时,你真正需要比较的是:

  • 当前状态 $s$ 下
  • 动作 A 好不好
  • 动作 B 好不好

所以 Q 函数比 V 函数更直接服务于“选动作”这件事。

这也是为什么: - Q-learning 学 Q - DQN 学 Q - 许多控制算法最终都会显式或隐式利用 Q


8. 一个迷宫例子

假设你在迷宫状态 $s$,有两个动作:

  • 左转:会更靠近陷阱
  • 右转:会更靠近终点

那么可能有:

$$ Q^\pi(s,\text{左}) < Q^\pi(s,\text{右}) $$

如果当前策略更偏向右转,那么这个状态的 $V^\pi(s)$ 也会更高。

这里说明:

状态本身“好不好”并不是绝对的,它取决于之后你会怎么行动。


9. 优势函数的直觉(先留印象)

定义:

$$ A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s) $$

含义:

在状态 $s$ 下做动作 $a$,比这个状态的平均水平好多少。

当: - $A^\pi(s,a)>0$:说明动作高于平均 - $A^\pi(s,a)<0$:说明动作低于平均

这个概念对后续策略梯度、Actor-Critic、PPO 非常重要。


10. 易混淆点

回报不是“要初始化学习的函数”

见:08-强化学习FAQ 初始化 探索与更新起点#2. 哪些对象需要初始化

价值函数是函数,不是单个常数

  • $V^\pi$ 是函数
  • $V^\pi(s)$ 才是某个状态上的数值

见:07-强化学习公式与符号说明#1. 强化学习公式到底是不是数学公式


11. 我的理解(可补充)

  • 奖励像局部信号
  • 回报像未来收益总账
  • 价值函数像“长期信用评估”
  • Q 函数像“动作选择打分器”

12. 复习问题

  1. 回报 $G_t$ 为什么要引入折扣因子?
  2. 奖励和价值的核心区别是什么?
  3. $V^\pi(s)$ 与 $Q^\pi(s,a)$ 各自衡量什么?
  4. 为什么 Q 更直接服务于控制?
  5. $V^\pi(s)=\sum_a \pi(a\mid s)Q^\pi(s,a)$ 这条式子是什么意思?

13. 前后关联

前置

后续