强化学习总览与学习路径
目录
强化学习总览与学习路径
0. 这门课到底在研究什么
强化学习(Reinforcement Learning, RL)研究的是:
智能体如何通过与环境交互,在没有直接监督标签的情况下,学会做一连串决策,并使长期累计收益最大。
它与监督学习最大的区别不是“用了奖励”,而是:
- 监督学习:给定输入和标准答案,学映射
- 强化学习:没有逐步标准答案,只能通过环境反馈去试错学习
1. 为什么它值得单独学
如果说机器学习擅长“预测”,那么强化学习更擅长“决策”。
强化学习更适合这样的任务:
- 当前动作会影响未来数据分布
- 当前看起来没收益,但可能影响长期结果
- 任务不是单步分类,而是多步连续决策
典型场景: - 游戏 AI - 机器人控制 - 自动驾驶决策 - 推荐与广告中的长期收益优化 - 大模型对齐与 RLHF / GRPO / PPO 等
2. 学强化学习最重要的不是一开始背算法
初学者最容易犯的错是:
一上来就试图看 DQN、PPO、GRPO 代码,却没有把底层概念吃透。
更合理的顺序应该是:
第一层:问题建模
第二层:长期价值评估
第三层:求解与改进
3. 强化学习的最小闭环
可以把 RL 记成一个循环:
$$ s_t \rightarrow a_t \rightarrow r_t, s_{t+1} $$
解释:
- 环境给智能体当前状态 $(s_t\$)
- 智能体采取动作 $(a_t\$)
- 环境返回奖励 $(r_t$$),并转移到下一状态 $(s_{t+1}\$$)
这个循环不断重复。
4. RL 的核心对象
状态 state
系统当前所处局面。
见:03-第2课 马尔可夫决策过程 MDP#1. MDP 的五元组
动作 action
智能体在当前状态下能做的选择。
见:03-第2课 马尔可夫决策过程 MDP#1. MDP 的五元组
奖励 reward
环境给出的即时反馈。
见:02-第1课 强化学习在解决什么问题#3. 奖励 reward
策略 policy
在状态下如何选动作的规则。
见:02-第1课 强化学习在解决什么问题#4. 策略 policy
回报 return
从当前时刻往后看的折扣累计奖励。
见:04-第3课 回报 价值函数与Q函数#1. 回报 Return
价值函数 value function
对“长期前景”的评估。
见:04-第3课 回报 价值函数与Q函数
5. RL 最关键的思维转变
强化学习最大的转变是:
不能只看当前奖励,要看长期期望回报。
例如: - 某个动作当前奖励不高 - 但能带你进入一个高价值状态 - 从长期看,这个动作可能更优
因此,强化学习关注的是: - 长期 - 序列 - 期望 - 决策
6. 当前基础阶段的知识地图
A. 直觉层
B. 建模层
C. 价值层
D. 递推层
E. 算法原型层
7. 当前阶段先不要急着卷的东西
在你还没把前 5 课吃透前,不建议先深挖:
- PPO 的实现细节
- GAE 的推导
- TRPO / KL 约束
- Q-learning 变种
- DQN 工程 trick
- Actor-Critic 各类架构
因为这些都建立在前面基础概念之上。
8. 学习时应该持续问自己的问题
以后每学一个 RL 任务,都先问:
- 环境是什么?
- 状态是什么?
- 动作是什么?
- 奖励怎么定义?
- 长期目标是什么?
- 策略如何表示?
- 价值如何评估?
- 这是在解模型已知问题,还是模型未知问题?
9. 当前笔记库的使用建议(面向 Obsidian)
建议这样使用这套笔记:
- 把 00-强化学习 MOC 固定到侧边栏
- 每次从课程页跳转到术语页:
- 07-强化学习公式与符号说明
- 08-强化学习FAQ 初始化 探索与更新起点
- 给你后续自己的理解补充到每一页的“我的理解 / 例子 / 易混淆点”区域
10. 一句话总结
Summary
强化学习学习的不是“某个公式”,而是一种围绕**状态—动作—奖励—长期价值—策略优化**展开的完整决策思维。