第1课 强化学习在解决什么问题

学习笔记 强化学习 基础
创建于 2026-05-09
目录

第1课:强化学习在解决什么问题

0. 一句话理解

强化学习要解决的是:智能体如何通过与环境交互,在没有直接标准答案的情况下,通过试错学会长期更优的决策。


1. 强化学习与监督学习的区别

监督学习

你拿到的是:

  • 输入 $x$
  • 标签 $y$

目标是学一个映射 $f(x)\approx y$。

强化学习

你拿到的不是“这一步该做什么”的标签,而是:

  • 当前状态
  • 采取动作后的环境反馈
  • 奖励
  • 下一状态

因此智能体要自己在交互中学习:

  • 哪些动作好
  • 哪些动作坏
  • 怎样做才能让长期结果更优

2. 强化学习的三个核心特征

2.1 没有逐步标准答案

环境不会告诉你“此时最优动作就是 A”。

2.2 反馈往往是延迟的

你当前一步做得对不对,可能要很多步以后才看出来。

2.3 数据依赖于当前策略

你采取什么行为,会影响你后续能看到什么数据。

Note

这一点是 RL 和普通监督学习最根本的差别之一。

3. 奖励 reward

奖励是环境给出的即时反馈。它回答的是:

你刚才这一步,短期来看值不值?

例如: - 到达目标:+10 - 撞墙:-1 - 每移动一步:-0.01

但要注意:

强化学习最终优化的不是“即时奖励最大”,而是“长期累计回报最大”。

关联:04-第3课 回报 价值函数与Q函数#1. 回报 Return


4. 策略 policy

策略是智能体的行为规则,即:

在某个状态下,怎样选择动作。

常记作:

$$ \pi(a\mid s) $$

它表示在状态 $s$ 下采取动作 $a$ 的概率。

两种常见策略

确定性策略

$$ a=\pi(s) $$

随机策略

$$ \pi(a\mid s) $$

这点与 07-强化学习公式与符号说明#2. π 到底是什么 直接相关。


5. 为什么不能只贪当前奖励

考虑两个动作:

  • 动作 A:当前奖励高,但后续一般
  • 动作 B:当前奖励低,但能带来更好的未来状态

如果只看眼前,容易选错。
因此强化学习要求智能体学会从长期角度评估行为。

这引出: - 04-第3课 回报 价值函数与Q函数 - 05-第4课 Bellman方程


6. 强化学习最小闭环

强化学习的基本交互可以写成:

$$ s_t \rightarrow a_t \rightarrow r_t, s_{t+1} $$

即: 1. 环境给出状态 $s_t$ 2. 智能体选动作 $a_t$ 3. 环境给出奖励 $r_t$ 与下一状态 $s_{t+1}$

这就是以后所有 RL 算法的最小工作单元。


7. 一个直观例子:机器人拿杯子

假设机器人要在房间里找到并拿起杯子。
它能做的动作包括:

  • 向前走
  • 左转
  • 右转
  • 伸手抓取

环境反馈: - 靠近杯子:+1 - 撞墙:-5 - 成功抓取:+100 - 每多走一步:-0.1

从这个例子中可以看到: - 任务是多步决策 - 奖励可能是延迟的 - 好动作不一定当前就显得“赚”


8. 初学者最应该建立的视角

看一个任务时,先问自己:

  1. 这是单步预测还是多步决策?
  2. 当前动作会不会影响未来局面?
  3. 当前反馈是不是稀疏或延迟?
  4. 目标是短期最优还是长期最优?

如果这四个问题的大部分答案都偏向“序列 / 未来 / 长期”,那就很可能是强化学习问题。


9. 易混淆点

奖励不等于价值

奖励是即时反馈;价值是长期前景评估。
见:04-第3课 回报 价值函数与Q函数#5. 奖励与价值的区别

策略不等于动作

策略是规则;动作是规则输出或从规则中采样得到的结果。
见:07-强化学习公式与符号说明#2. π 到底是什么


10. 我的理解(可自己补充)

  • 监督学习更像“照答案做题”
  • 强化学习更像“摸着石头过河”
  • RL 难在:延迟奖励、探索利用冲突、数据会随策略变化

11. 复习问题

  1. 强化学习和监督学习最本质的区别是什么?
  2. 为什么 RL 不能只盯着当前奖励?
  3. 奖励、策略、动作这三个概念如何区分?
  4. RL 最小闭环是什么?

12. 前后关联

前置

后续