Gradient Descent
左边是日常场景,右边是AI训练中的对应含义 —— 颜色相同代表对应关系
小球代表AI当前参数位置 · 每步朝梯度方向移动
点击卡片翻转,看每个部分在"下山"类比中对应什么
AI 每次学习一批数据后,执行以下 5 步
AI 用当前参数做预测,与正确答案对比,得出损失值(山的高度)
对损失函数求偏导数,得到"每个参数朝哪个方向调整能让损失最快减小"
沿梯度的反方向更新参数:新参数 = 旧参数 - 学习率 × 梯度
所有参数同时完成一次微小调整,AI 的「知识」更新了一点点
回到第 1 步,反复执行,直到损失足够小,或达到最大迭代次数
调整学习率,看小球如何下降——过大会震荡,过小会极慢
调整上方滑块,点击开始
80% 的人对梯度下降有这两个误解
这个类比在哪里不完全准确
3 道题,测测你是否真的理解了梯度下降
1. 学习率突然调得很大,最可能发生什么?
2. AI 训练 100 万次迭代后,损失值从 10 降到 0.1。这说明什么?
3. 梯度下降有个著名的局限:它可能找不到最优解,而是卡在一个还不错但不是最好的地方。这叫什么?
一张图讲透梯度下降