强化学习总览与学习路径

学习笔记强化学习总览

创建于 2026-05-09

强化学习总览与学习路径

0. 这门课到底在研究什么

强化学习（Reinforcement Learning, RL）研究的是：

智能体如何通过与环境交互，在没有直接监督标签的情况下，学会做一连串决策，并使长期累计收益最大。

它与监督学习最大的区别不是“用了奖励”，而是：

监督学习：给定输入和标准答案，学映射
强化学习：没有逐步标准答案，只能通过环境反馈去试错学习

1. 为什么它值得单独学

如果说机器学习擅长“预测”，那么强化学习更擅长“决策”。

强化学习更适合这样的任务：

当前动作会影响未来数据分布
当前看起来没收益，但可能影响长期结果
任务不是单步分类，而是多步连续决策

典型场景： - 游戏 AI - 机器人控制 - 自动驾驶决策 - 推荐与广告中的长期收益优化 - 大模型对齐与 RLHF / GRPO / PPO 等

2. 学强化学习最重要的不是一开始背算法

初学者最容易犯的错是：

一上来就试图看 DQN、PPO、GRPO 代码，却没有把底层概念吃透。

更合理的顺序应该是：

第一层：问题建模

03-第2课马尔可夫决策过程 MDP

第二层：长期价值评估

第三层：求解与改进

06-第5课动态规划策略评估策略迭代价值迭代

3. 强化学习的最小闭环

可以把 RL 记成一个循环：

$$ s_t \rightarrow a_t \rightarrow r_t, s_{t+1} $$

解释：

环境给智能体当前状态 $(s_t\$)
智能体采取动作 $(a_t\$)
环境返回奖励 $(r_t$$)，并转移到下一状态 $(s_{t+1}\$$)

这个循环不断重复。

4. RL 的核心对象

价值函数 value function

对“长期前景”的评估。
见：04-第3课回报价值函数与Q函数

5. RL 最关键的思维转变

强化学习最大的转变是：

不能只看当前奖励，要看长期期望回报。

例如： - 某个动作当前奖励不高 - 但能带你进入一个高价值状态 - 从长期看，这个动作可能更优

因此，强化学习关注的是： - 长期 - 序列 - 期望 - 决策

6. 当前基础阶段的知识地图

A. 直觉层

02-第1课强化学习在解决什么问题

B. 建模层

03-第2课马尔可夫决策过程 MDP

C. 价值层

04-第3课回报价值函数与Q函数

D. 递推层

05-第4课 Bellman方程

E. 算法原型层

06-第5课动态规划策略评估策略迭代价值迭代

7. 当前阶段先不要急着卷的东西

在你还没把前 5 课吃透前，不建议先深挖：

PPO 的实现细节
GAE 的推导
TRPO / KL 约束
Q-learning 变种
DQN 工程 trick
Actor-Critic 各类架构

因为这些都建立在前面基础概念之上。

8. 学习时应该持续问自己的问题

以后每学一个 RL 任务，都先问：

环境是什么？
状态是什么？
动作是什么？
奖励怎么定义？
长期目标是什么？
策略如何表示？
价值如何评估？
这是在解模型已知问题，还是模型未知问题？

9. 当前笔记库的使用建议（面向 Obsidian）

建议这样使用这套笔记：

把 00-强化学习 MOC 固定到侧边栏
每次从课程页跳转到术语页：
07-强化学习公式与符号说明
08-强化学习FAQ 初始化探索与更新起点
给你后续自己的理解补充到每一页的“我的理解 / 例子 / 易混淆点”区域

10. 一句话总结

Summary

强化学习学习的不是“某个公式”，而是一种围绕**状态—动作—奖励—长期价值—策略优化**展开的完整决策思维。

强化学习总览与学习路径

0. 这门课到底在研究什么

1. 为什么它值得单独学

2. 学强化学习最重要的不是一开始背算法

第一层：问题建模

第二层：长期价值评估

第三层：求解与改进

3. 强化学习的最小闭环

4. RL 的核心对象

状态 state

动作 action

奖励 reward

策略 policy

回报 return

价值函数 value function

5. RL 最关键的思维转变

6. 当前基础阶段的知识地图

A. 直觉层

B. 建模层

C. 价值层

D. 递推层

E. 算法原型层

7. 当前阶段先不要急着卷的东西

8. 学习时应该持续问自己的问题

9. 当前笔记库的使用建议（面向 Obsidian）

10. 一句话总结

11. 关联笔记