🎮
AlphaGo 打败世界冠军、机器人学会走路、游戏 AI 自学超越人类——
没有人教它"正确答案",它们只是在不断地试错和收到反馈。
这就是强化学习:不告诉你怎么做,只告诉你做得对不对
↓ 往下看,搞懂强化学习

🎮 强化学习

Reinforcement Learning

不教它答案,只告诉它分数——AI 自己摸索出一切
5岁 专业
🐕 强化学习就像训狗——狗做对了给零食,做错了不理它,反复下来狗自己学会了你想要的动作。AI 也一样,只要你定好"什么算做对",它就能自己把所有技巧摸索出来。

🔄 核心可视化:这个循环怎么转?

点击循环中的任意节点,看它对应什么意思。左边是训狗类比,右边是强化学习本身。

🐕 生活类比(训狗)
🐕
学习者(小狗)
🧑‍🏫
环境(训练师)
🦴
奖励(零食)
做动作 拿奖励 更新策略
点击上方节点,了解它在训狗场景中扮演的角色 ↑
🤖 强化学习概念
🤖
智能体(Agent)
🌍
环境(Environment)
💯
奖励(Reward)
选动作 得奖励 优化策略
点击上方节点,了解它在强化学习中扮演的角色 ↑

🧩 它由什么组成?

点击每张卡片翻转,看详细解释和类比对应关系。

🤖智能体
负责做决策的「学习者」,观察环境并选择动作。类比:那只正在学习的小狗。

没有它就没有决策主体。
🌍环境
智能体所处的世界,接受动作后返回新状态和奖励。类比:游戏屏幕和规则。

没有它就没有反馈。
🏆奖励
环境对每次动作的即时打分:正数鼓励,负数惩罚。类比:训狗的零食或无视。

这是学习的唯一信号。
📋策略
在不同局面下选择动作的规则,是学习的最终成果。类比:小狗学会的「听口令做动作」习惯。
📈长期奖励
不只看当下得分,而是把未来所有得分折算累加。类比:不贪眼前零食,为了将来更多零食选更聪明的行为。

▶️ 它是怎么运作的?

一个完整的强化学习循环,按步骤播放,看看每一步在做什么。

1

🔍 智能体观察当前状态

智能体「看」一眼现在的情况——就像你拿到游戏手柄第一眼看屏幕,此时它还什么都不知道。

2

🎯 根据策略选择一个动作

按照当前策略(初期可能是随机乱按),选择一个动作去执行。就像你不看说明书乱按按钮一样。

3

🌍 环境返回新状态和奖励分数

世界发生变化,环境告诉它:新局面是什么样?这次动作得了多少分?就像屏幕分数跳动。

4

🔄 智能体更新策略、再次循环

根据拿到的分数调整策略(加分的做法多用,扣分的少用),然后回到第1步,重复几百万次。

当前第 1 步,共 4 步

🧪 动手实验:让 AI 自己学走格子

一个 4×4 的格子世界:🤖 要找到 🏆,但要避开 💣。点「开始学习」看 AI 怎么从随机乱走到找到最优路径。

尝试次数0
累计奖励0
最优步数-
等待开始……

🚫 常见误解

这些是关于强化学习最容易搞混的4个点。

强化学习就是深度学习,必须用神经网络
深度神经网络只是强化学习的一种工具,不用神经网络也能做强化学习,两者是不同层面的概念
强化学习追求每一步的即时高分
强化学习追求的是长期总分最高,有时候当下低分换来未来高分才是更好的策略
和监督学习一样,需要大量标注好的正确答案
强化学习只需要一个「打分规则」,不需要人类提前标注每一步的正确做法
只要有仿真环境,强化学习可以解决所有问题
仿真和真实世界存在差距,强化学习在样本效率、安全性和真实迁移上仍有很多局限

⚠️ 类比的边界

训狗类比很好用,但在这几个地方不完全准确。

真实训练狗需要几周,强化学习可以在虚拟环境里试错几百万次,速度和规模完全不同
狗的「奖励」只有当下,强化学习会把未来很多步的奖励都折算进来一起考虑
训狗是人设计每个训练动作,强化学习的智能体是完全自主探索,人只需定义奖励规则

⚡ 秒测:你真的懂了吗?

3 道题,考的是理解,不是记忆。

Q1. 一个强化学习智能体在玩游戏时,发现「放弃眼前一颗星星」可以换来「后面得到三颗星星」。它应该怎么选?
Q2. 要用强化学习训练机器人走路,你必须提供的是什么?
Q3. AlphaGo Zero 从未看过任何人类棋谱,却超越了所有人类棋手。它用的是哪种方式?

🎉 你已经比 90% 的人更懂强化学习了!

分享给朋友试试?

📤 分享给朋友

一张图讲透强化学习