强化学习总览与学习路径

学习笔记 强化学习 总览
创建于 2026-05-09
目录

强化学习总览与学习路径

0. 这门课到底在研究什么

强化学习(Reinforcement Learning, RL)研究的是:

智能体如何通过与环境交互,在没有直接监督标签的情况下,学会做一连串决策,并使长期累计收益最大。

它与监督学习最大的区别不是“用了奖励”,而是:

  • 监督学习:给定输入和标准答案,学映射
  • 强化学习:没有逐步标准答案,只能通过环境反馈去试错学习

1. 为什么它值得单独学

如果说机器学习擅长“预测”,那么强化学习更擅长“决策”。

强化学习更适合这样的任务:

  • 当前动作会影响未来数据分布
  • 当前看起来没收益,但可能影响长期结果
  • 任务不是单步分类,而是多步连续决策

典型场景: - 游戏 AI - 机器人控制 - 自动驾驶决策 - 推荐与广告中的长期收益优化 - 大模型对齐与 RLHF / GRPO / PPO 等


2. 学强化学习最重要的不是一开始背算法

初学者最容易犯的错是:

一上来就试图看 DQN、PPO、GRPO 代码,却没有把底层概念吃透。

更合理的顺序应该是:

第一层:问题建模

第二层:长期价值评估

第三层:求解与改进


3. 强化学习的最小闭环

可以把 RL 记成一个循环:

$$ s_t \rightarrow a_t \rightarrow r_t, s_{t+1} $$

解释:

  • 环境给智能体当前状态 $(s_t\$)
  • 智能体采取动作 $(a_t\$)
  • 环境返回奖励 $(r_t$$),并转移到下一状态 $(s_{t+1}\$$)

这个循环不断重复。


4. RL 的核心对象

状态 state

系统当前所处局面。
见:03-第2课 马尔可夫决策过程 MDP#1. MDP 的五元组

动作 action

智能体在当前状态下能做的选择。
见:03-第2课 马尔可夫决策过程 MDP#1. MDP 的五元组

奖励 reward

环境给出的即时反馈。
见:02-第1课 强化学习在解决什么问题#3. 奖励 reward

策略 policy

在状态下如何选动作的规则。
见:02-第1课 强化学习在解决什么问题#4. 策略 policy

回报 return

从当前时刻往后看的折扣累计奖励。
见:04-第3课 回报 价值函数与Q函数#1. 回报 Return

价值函数 value function

对“长期前景”的评估。
见:04-第3课 回报 价值函数与Q函数


5. RL 最关键的思维转变

强化学习最大的转变是:

不能只看当前奖励,要看长期期望回报。

例如: - 某个动作当前奖励不高 - 但能带你进入一个高价值状态 - 从长期看,这个动作可能更优

因此,强化学习关注的是: - 长期 - 序列 - 期望 - 决策


6. 当前基础阶段的知识地图

A. 直觉层

B. 建模层

C. 价值层

D. 递推层

E. 算法原型层


7. 当前阶段先不要急着卷的东西

在你还没把前 5 课吃透前,不建议先深挖:

  • PPO 的实现细节
  • GAE 的推导
  • TRPO / KL 约束
  • Q-learning 变种
  • DQN 工程 trick
  • Actor-Critic 各类架构

因为这些都建立在前面基础概念之上。


8. 学习时应该持续问自己的问题

以后每学一个 RL 任务,都先问:

  1. 环境是什么?
  2. 状态是什么?
  3. 动作是什么?
  4. 奖励怎么定义?
  5. 长期目标是什么?
  6. 策略如何表示?
  7. 价值如何评估?
  8. 这是在解模型已知问题,还是模型未知问题?

9. 当前笔记库的使用建议(面向 Obsidian)

建议这样使用这套笔记:


10. 一句话总结

Summary

强化学习学习的不是“某个公式”,而是一种围绕**状态—动作—奖励—长期价值—策略优化**展开的完整决策思维。

11. 关联笔记