🎮

AlphaGo 打败世界冠军、机器人学会走路、游戏 AI 自学超越人类——
没有人教它"正确答案"，它们只是在不断地试错和收到反馈。
这就是强化学习：不告诉你怎么做，只告诉你做得对不对。

↓ 往下看，搞懂强化学习

🎮 强化学习

Reinforcement Learning

不教它答案，只告诉它分数——AI 自己摸索出一切

5岁专业

🐕 强化学习就像训狗——狗做对了给零食，做错了不理它，反复下来狗自己学会了你想要的动作。AI 也一样，只要你定好"什么算做对"，它就能自己把所有技巧摸索出来。

🔄 核心可视化：这个循环怎么转？

点击循环中的任意节点，看它对应什么意思。左边是训狗类比，右边是强化学习本身。

🐕 生活类比（训狗）

🐕

学习者（小狗）

🧑‍🏫

环境（训练师）

🦴

奖励（零食）

做动作拿奖励更新策略

点击上方节点，了解它在训狗场景中扮演的角色 ↑

🤖 强化学习概念

🤖

智能体（Agent）

🌍

环境（Environment）

💯

奖励（Reward）

选动作得奖励优化策略

点击上方节点，了解它在强化学习中扮演的角色 ↑

🧩 它由什么组成？

点击每张卡片翻转，看详细解释和类比对应关系。

🤖智能体

负责做决策的「学习者」，观察环境并选择动作。类比：那只正在学习的小狗。

没有它就没有决策主体。

🌍环境

智能体所处的世界，接受动作后返回新状态和奖励。类比：游戏屏幕和规则。

没有它就没有反馈。

🏆奖励

环境对每次动作的即时打分：正数鼓励，负数惩罚。类比：训狗的零食或无视。

这是学习的唯一信号。

📋策略

在不同局面下选择动作的规则，是学习的最终成果。类比：小狗学会的「听口令做动作」习惯。

📈长期奖励

不只看当下得分，而是把未来所有得分折算累加。类比：不贪眼前零食，为了将来更多零食选更聪明的行为。

▶️ 它是怎么运作的？

一个完整的强化学习循环，按步骤播放，看看每一步在做什么。

🔍 智能体观察当前状态

智能体「看」一眼现在的情况——就像你拿到游戏手柄第一眼看屏幕，此时它还什么都不知道。

🎯 根据策略选择一个动作

按照当前策略（初期可能是随机乱按），选择一个动作去执行。就像你不看说明书乱按按钮一样。

🌍 环境返回新状态和奖励分数

世界发生变化，环境告诉它：新局面是什么样？这次动作得了多少分？就像屏幕分数跳动。

🔄 智能体更新策略、再次循环

根据拿到的分数调整策略（加分的做法多用，扣分的少用），然后回到第1步，重复几百万次。

当前第 1 步，共 4 步

🧪 动手实验：让 AI 自己学走格子

一个 4×4 的格子世界：🤖 要找到 🏆，但要避开 💣。点「开始学习」看 AI 怎么从随机乱走到找到最优路径。

尝试次数0

累计奖励0

最优步数-

等待开始……

🚫 常见误解

这些是关于强化学习最容易搞混的4个点。

强化学习就是深度学习，必须用神经网络

深度神经网络只是强化学习的一种工具，不用神经网络也能做强化学习，两者是不同层面的概念

强化学习追求每一步的即时高分

强化学习追求的是长期总分最高，有时候当下低分换来未来高分才是更好的策略

和监督学习一样，需要大量标注好的正确答案

强化学习只需要一个「打分规则」，不需要人类提前标注每一步的正确做法

只要有仿真环境，强化学习可以解决所有问题

仿真和真实世界存在差距，强化学习在样本效率、安全性和真实迁移上仍有很多局限

⚠️ 类比的边界

训狗类比很好用，但在这几个地方不完全准确。

真实训练狗需要几周，强化学习可以在虚拟环境里试错几百万次，速度和规模完全不同

狗的「奖励」只有当下，强化学习会把未来很多步的奖励都折算进来一起考虑

训狗是人设计每个训练动作，强化学习的智能体是完全自主探索，人只需定义奖励规则

⚡ 秒测：你真的懂了吗？

3 道题，考的是理解，不是记忆。

Q1. 一个强化学习智能体在玩游戏时，发现「放弃眼前一颗星星」可以换来「后面得到三颗星星」。它应该怎么选？

Q2. 要用强化学习训练机器人走路，你必须提供的是什么？

Q3. AlphaGo Zero 从未看过任何人类棋谱，却超越了所有人类棋手。它用的是哪种方式？

🎉 你已经比 90% 的人更懂强化学习了！

分享给朋友试试？

🎮

强化学习

Reinforcement Learning

不告诉你怎么做，只告诉你做得对不对——AI 就这样学会了一切

🤖 智能体 — 在环境里行动的学习者

🌍 环境 — 给出状态和奖励的世界

🏆 奖励 — AI 唯一的学习信号

Aha! 秒懂 · aha.wiki

📱 截图保存后分享给朋友