第3课回报价值函数与Q函数

学习笔记强化学习价值函数

创建于 2026-05-09

第3课：回报、价值函数与 Q 函数

0. 一句话理解

奖励只告诉你“眼前这一步”，价值函数告诉你“从现在往后，整体前景怎么样”。

1. 回报 Return

从时间步 $t$ 开始的回报定义为：

$$ G_t=r_t+\gamma r_{t+1}+\gamma^2 r_{t+2}+\cdots $$

它表示：

从当前时刻开始，未来一串奖励的折扣累计和。

解释

$r_t$：当前奖励
$\gamma$：折扣因子
越远的奖励，权重越小

为什么需要回报

因为 RL 最终关心的是长期结果，而不是单步奖励。

关联：05-第4课 Bellman方程#2. 回报的递推形式

2. 状态价值函数 $V^\pi(s)$

定义：

$$ V^\pi(s)=\mathbb{E}_\pi[G_t \mid s_t=s] $$

含义：

当前处于状态 $s$，并且之后一直按照策略 $\pi$ 行动时，未来期望回报是多少。

直觉

它衡量的是：

这个状态有多有前途。

关键点

它是期望值
它依赖策略 $\pi$
它是“状态层面”的长期评估

3. 动作价值函数 $Q^\pi(s,a)$

定义：

$$ Q^\pi(s,a)=\mathbb{E}_\pi[G_t \mid s_t=s,a_t=a] $$

含义：

当前在状态 $s$ 下先做动作 $a$，之后再按策略 $\pi$ 行动时，未来期望回报是多少。

直觉

它衡量的是：

在状态 $s$ 下做动作 $a$ 这件事到底值不值。

与 $V^\pi(s)$ 的区别

$V^\pi(s)$：这个状态整体怎样
$Q^\pi(s,a)$：这个状态下的某个具体动作怎样

4. 最优价值函数

最优状态价值

$$ V^*(s)=\max_\pi V^\pi(s) $$

表示从状态 $s$ 出发，在所有可能策略中能够达到的最大期望回报。

最优动作价值

$$ Q^*(s,a)=\max_\pi Q^\pi(s,a) $$

表示在状态 $s$ 下先做动作 $a$，之后都按最优方式行动时的最大期望回报。

决策意义

如果已知 $Q^*(s,a)$，则最优动作可写为：

$$ a^=$arg\max_a Q^(s,a) $$

5. 奖励与价值的区别

这是最重要的区分之一。

奖励 reward

环境给你的即时反馈，是单步的。

价值 value

从当前往后看，未来长期累计回报的期望，是长期的。

Important

没有即时奖励，不代表没有价值。某一步可能当前奖励为 0，但能带你进入高价值状态，因此其 Q 值依然很高。

6. $V^\pi(s)$ 与 $Q^\pi(s,a)$ 的关系

在离散动作情况下：

$$ V^\pi(s)=\sum_a \pi(a\mid s)$,Q^\pi(s,a) $$

解释：

一个状态的价值，等于在这个状态下按策略可能采取的各个动作价值的加权平均。

这里： - $\pi(a\mid s)$ 是概率 - $Q^\pi(s,a)$ 是动作价值 - 结果是状态价值

符号易混淆时可回看：07-强化学习公式与符号说明#2. π 到底是什么

7. 为什么 Q 函数对控制特别重要

做决策时，你真正需要比较的是：

当前状态 $s$ 下
动作 A 好不好
动作 B 好不好

所以 Q 函数比 V 函数更直接服务于“选动作”这件事。

这也是为什么： - Q-learning 学 Q - DQN 学 Q - 许多控制算法最终都会显式或隐式利用 Q

8. 一个迷宫例子

假设你在迷宫状态 $s$，有两个动作：

左转：会更靠近陷阱
右转：会更靠近终点

那么可能有：

$$ Q^\pi(s,\text{左}) < Q^\pi(s,\text{右}) $$

如果当前策略更偏向右转，那么这个状态的 $V^\pi(s)$ 也会更高。

这里说明：

状态本身“好不好”并不是绝对的，它取决于之后你会怎么行动。

9. 优势函数的直觉（先留印象）

定义：

$$ A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s) $$

含义：

在状态 $s$ 下做动作 $a$，比这个状态的平均水平好多少。

当： - $A^\pi(s,a)>0$：说明动作高于平均 - $A^\pi(s,a)<0$：说明动作低于平均

这个概念对后续策略梯度、Actor-Critic、PPO 非常重要。

10. 易混淆点

回报不是“要初始化学习的函数”

见：08-强化学习FAQ 初始化探索与更新起点#2. 哪些对象需要初始化

价值函数是函数，不是单个常数

$V^\pi$ 是函数
$V^\pi(s)$ 才是某个状态上的数值

见：07-强化学习公式与符号说明#1. 强化学习公式到底是不是数学公式

11. 我的理解（可补充）

奖励像局部信号
回报像未来收益总账
价值函数像“长期信用评估”
Q 函数像“动作选择打分器”

12. 复习问题

回报 $G_t$ 为什么要引入折扣因子？
奖励和价值的核心区别是什么？
$V^\pi(s)$ 与 $Q^\pi(s,a)$ 各自衡量什么？
为什么 Q 更直接服务于控制？
$V^\pi(s)=\sum_a \pi(a\mid s)Q^\pi(s,a)$ 这条式子是什么意思？

13. 前后关联

前置

03-第2课马尔可夫决策过程 MDP