Reinforcement Learning
点击循环中的任意节点,看它对应什么意思。左边是训狗类比,右边是强化学习本身。
点击每张卡片翻转,看详细解释和类比对应关系。
一个完整的强化学习循环,按步骤播放,看看每一步在做什么。
智能体「看」一眼现在的情况——就像你拿到游戏手柄第一眼看屏幕,此时它还什么都不知道。
按照当前策略(初期可能是随机乱按),选择一个动作去执行。就像你不看说明书乱按按钮一样。
世界发生变化,环境告诉它:新局面是什么样?这次动作得了多少分?就像屏幕分数跳动。
根据拿到的分数调整策略(加分的做法多用,扣分的少用),然后回到第1步,重复几百万次。
一个 4×4 的格子世界:🤖 要找到 🏆,但要避开 💣。点「开始学习」看 AI 怎么从随机乱走到找到最优路径。
这些是关于强化学习最容易搞混的4个点。
训狗类比很好用,但在这几个地方不完全准确。
3 道题,考的是理解,不是记忆。
🎉 你已经比 90% 的人更懂强化学习了!
分享给朋友试试?