⛰️
ChatGPT 每次能给出更好的回答,是因为训练时进行了超过 1 万亿次"往下走一步"的计算。
AI 学会说话,靠的是一次次爬下一座看不见的山
↓ 往下看,搞懂梯度下降

⛰️ 梯度下降

Gradient Descent

AI 的学习,就是一次次往山谷里走一步
🧒 5岁版 🎓 中学版 🔬 精准版
蒙着眼睛站在山地上,要找最低的山谷。每次伸脚试探,往最陡的下坡方向走一小步,重复上万次,直到四面都不比自己高——这就是 AI 学习的过程。

🎯 核心类比:蒙眼下山

左边是日常场景,右边是AI训练中的对应含义 —— 颜色相同代表对应关系

小球代表AI当前参数位置 · 每步朝梯度方向移动

📦 拆解:它由什么组成?

点击卡片翻转,看每个部分在"下山"类比中对应什么

📉损失函数点击了解
衡量预测有多错的「评分」,越接近0越好

🏔️ = 山的高度
你现在在山上哪个海拔
🧭梯度点击了解
「最陡下坡方向」的箭头

👣 = 脚踩地面感受到的坡度方向
告诉AI朝哪调整
🚶学习率点击了解
每步迈多大
太大:越过山谷 ❌
太小:极慢 ❌

🦶 = 步长大小
🎛️参数点击了解
AI大脑里所有可调整的数字
(GPT-4 有约1.8万亿个)

📍 = 你在山上的坐标
🔁迭代点击了解
重复「算坡度→走一步」
成千上万次

🏃 = 不停走步
直到到达山谷

🔄 它是怎么运作的?

AI 每次学习一批数据后,执行以下 5 步

1

预测并计算误差

AI 用当前参数做预测,与正确答案对比,得出损失值(山的高度)

2

计算梯度

对损失函数求偏导数,得到"每个参数朝哪个方向调整能让损失最快减小"

3

反向迈一步

沿梯度的反方向更新参数:新参数 = 旧参数 - 学习率 × 梯度

4

参数更新

所有参数同时完成一次微小调整,AI 的「知识」更新了一点点

5

重复直到收敛

回到第 1 步,反复执行,直到损失足够小,或达到最大迭代次数

🧪 动手试试

调整学习率,看小球如何下降——过大会震荡,过小会极慢

学习率 0.10
起始位置 偏右

调整上方滑块,点击开始

⚠️ 常见误解

80% 的人对梯度下降有这两个误解

很多人以为:梯度下降一定能找到最好的答案(全局最小值)
其实是:它只能找到附近的「局部山谷」。大型神经网络靠随机初始化和多次训练来规避这个问题——现实中发现大模型的局部最小值通常已经足够好
很多人以为:学习率越小越精确,应该尽量小
其实是:学习率过小会极慢,还容易卡在局部最小值;过大会越过最小值来回震荡。找到合适的学习率(通常用调度器自动衰减)是调参的核心艺术

📏 类比的边界

这个类比在哪里不完全准确

✅ 秒测:你真的懂了吗?

3 道题,测测你是否真的理解了梯度下降

1. 学习率突然调得很大,最可能发生什么?

2. AI 训练 100 万次迭代后,损失值从 10 降到 0.1。这说明什么?

3. 梯度下降有个著名的局限:它可能找不到最优解,而是卡在一个还不错但不是最好的地方。这叫什么?

📤 分享给朋友

一张图讲透梯度下降