第3课 回报 价值函数与Q函数
目录
第3课:回报、价值函数与 Q 函数
0. 一句话理解
奖励只告诉你“眼前这一步”,价值函数告诉你“从现在往后,整体前景怎么样”。
1. 回报 Return
从时间步 $t$ 开始的回报定义为:
$$ G_t=r_t+\gamma r_{t+1}+\gamma^2 r_{t+2}+\cdots $$
它表示:
从当前时刻开始,未来一串奖励的折扣累计和。
解释
- $r_t$:当前奖励
- $\gamma$:折扣因子
- 越远的奖励,权重越小
为什么需要回报
因为 RL 最终关心的是长期结果,而不是单步奖励。
关联:05-第4课 Bellman方程#2. 回报的递推形式
2. 状态价值函数 $V^\pi(s)$
定义:
$$ V^\pi(s)=\mathbb{E}_\pi[G_t \mid s_t=s] $$
含义:
当前处于状态 $s$,并且之后一直按照策略 $\pi$ 行动时,未来期望回报是多少。
直觉
它衡量的是:
这个状态有多有前途。
关键点
- 它是期望值
- 它依赖策略 $\pi$
- 它是“状态层面”的长期评估
3. 动作价值函数 $Q^\pi(s,a)$
定义:
$$ Q^\pi(s,a)=\mathbb{E}_\pi[G_t \mid s_t=s,a_t=a] $$
含义:
当前在状态 $s$ 下先做动作 $a$,之后再按策略 $\pi$ 行动时,未来期望回报是多少。
直觉
它衡量的是:
在状态 $s$ 下做动作 $a$ 这件事到底值不值。
与 $V^\pi(s)$ 的区别
- $V^\pi(s)$:这个状态整体怎样
- $Q^\pi(s,a)$:这个状态下的某个具体动作怎样
4. 最优价值函数
最优状态价值
$$ V^*(s)=\max_\pi V^\pi(s) $$
表示从状态 $s$ 出发,在所有可能策略中能够达到的最大期望回报。
最优动作价值
$$ Q^*(s,a)=\max_\pi Q^\pi(s,a) $$
表示在状态 $s$ 下先做动作 $a$,之后都按最优方式行动时的最大期望回报。
决策意义
如果已知 $Q^*(s,a)$,则最优动作可写为:
$$ a^=$arg\max_a Q^(s,a) $$
5. 奖励与价值的区别
这是最重要的区分之一。
奖励 reward
环境给你的即时反馈,是单步的。
价值 value
从当前往后看,未来长期累计回报的期望,是长期的。
Important
没有即时奖励,不代表没有价值。 某一步可能当前奖励为 0,但能带你进入高价值状态,因此其 Q 值依然很高。6. $V^\pi(s)$ 与 $Q^\pi(s,a)$ 的关系
在离散动作情况下:
$$ V^\pi(s)=\sum_a \pi(a\mid s)$,Q^\pi(s,a) $$
解释:
一个状态的价值,等于在这个状态下按策略可能采取的各个动作价值的加权平均。
这里: - $\pi(a\mid s)$ 是概率 - $Q^\pi(s,a)$ 是动作价值 - 结果是状态价值
符号易混淆时可回看:07-强化学习公式与符号说明#2. π 到底是什么
7. 为什么 Q 函数对控制特别重要
做决策时,你真正需要比较的是:
- 当前状态 $s$ 下
- 动作 A 好不好
- 动作 B 好不好
所以 Q 函数比 V 函数更直接服务于“选动作”这件事。
这也是为什么: - Q-learning 学 Q - DQN 学 Q - 许多控制算法最终都会显式或隐式利用 Q
8. 一个迷宫例子
假设你在迷宫状态 $s$,有两个动作:
- 左转:会更靠近陷阱
- 右转:会更靠近终点
那么可能有:
$$ Q^\pi(s,\text{左}) < Q^\pi(s,\text{右}) $$
如果当前策略更偏向右转,那么这个状态的 $V^\pi(s)$ 也会更高。
这里说明:
状态本身“好不好”并不是绝对的,它取决于之后你会怎么行动。
9. 优势函数的直觉(先留印象)
定义:
$$ A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s) $$
含义:
在状态 $s$ 下做动作 $a$,比这个状态的平均水平好多少。
当: - $A^\pi(s,a)>0$:说明动作高于平均 - $A^\pi(s,a)<0$:说明动作低于平均
这个概念对后续策略梯度、Actor-Critic、PPO 非常重要。
10. 易混淆点
回报不是“要初始化学习的函数”
见:08-强化学习FAQ 初始化 探索与更新起点#2. 哪些对象需要初始化
价值函数是函数,不是单个常数
- $V^\pi$ 是函数
- $V^\pi(s)$ 才是某个状态上的数值
见:07-强化学习公式与符号说明#1. 强化学习公式到底是不是数学公式
11. 我的理解(可补充)
- 奖励像局部信号
- 回报像未来收益总账
- 价值函数像“长期信用评估”
- Q 函数像“动作选择打分器”
12. 复习问题
- 回报 $G_t$ 为什么要引入折扣因子?
- 奖励和价值的核心区别是什么?
- $V^\pi(s)$ 与 $Q^\pi(s,a)$ 各自衡量什么?
- 为什么 Q 更直接服务于控制?
- $V^\pi(s)=\sum_a \pi(a\mid s)Q^\pi(s,a)$ 这条式子是什么意思?